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机 器 学 习 是 使 计算 机 





























学 习 是 机 器 学 习 中 的 一 























t 有 智能 的 根本 途径 ， 其 应 用 遍及 人 工 智 能 的 各 个 领域 。 无 监督 
学 学 习 方 式 ， 是 数据 科学 的 一 个 重要 分 支 ， 和 常用 于 数据 挖掘 领域 ， 
通过 构建 模型 来 为 业务 决策 提供 依据 。 
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本 书 通过 Python 语言 讲解 无 监督 学 习 ， 全 书 内 容 包括 10 章 ， 前 面 9 章 由 浅 入 深 地 讲 

































































解 了 无 监督 学 习 的 基础 知识 、 聚 类 的 基础 知识 、 高 级 聚 类 、 层 次 聚 类 、 软 聚 类 和 高 斯 混合 
分 量 分 析 、 无 监督 神经 网 络 模型 、 生 成 式 对 抗 网 络 和 自 组 织 映 射 ， 
第 10 章 以 问题 解答 的 形式 对 前 面 9 章 涉及 的 问题 给 出 了 解决 方案 。 


本 书 适 合 数据 科学 家 、 机 器 学 习 从 业者 和 普通 的 软件 开发 人 员 阅 读 ， 通 过 学 习 本 书 介 




















模型 、 异 常 检测 、 降 维和 




















A 



























































步 社区 好 好 好 你 最 棒 (13574065152) 专 享 


开阔 们 


























的 无 监督 学 习 理论 和 Python 编程 方法 ， 读 者 能 够 在 业务 实践 中 获得 有 价值 的 参考 。 





请 尊重 版 权 
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目 源 ， 重 庆 交 通 大 学 交通 运输 工程 硕士 。 以 交通 行业 为 深耕 领域 ， 主 要 涉及 该 行业 的 
大 数据 、 数 据 安全 、 数 据 分 析 。 结 合 工作 经 验 ， 目 前 钻研 机 器 学 习 、 人 工 智能 、 数 据 挖 掘 
等 领域 。 

刘 江 峰 ， 重 庆 大 学 软件 工程 硕士 。 技 术 出 喘 ， 工 作 涉及 电 商 、 物 流 、 旅 游 、 金 融 等 领 
域 ， 对 相关 的 技术 和 数据 等 板块 有 深入 的 了 解 。 早 期 以 电 商 垂直 领域 为 行业 背景 ， 涉 猫 大 
数据 、 数 据 挖掘 等 技术 领域 。 目 前 工作 涉及 金融 领域 ， 主 要 的 业务 方向 为 结合 机 器 学 习 、 
区 块 链 等 技术 的 业务 平台 。 
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朱 塞 佩 : 博 纳 科 尔 索 (“Giuseppe Bonaccorso) 是 人 工 智能 、 数 据 科学 和 机 器 学 习 领 域 
的 资深 从 业 人 员 。 他 曾 参 与 了 不 同业 务 环境 下 的 解决 方案 设计 、 管 理 和 交付 。 他 于 2005 年 
在 意大利 的 卡 塔 尼 亚 大 学 (University of Catania) 获得 电子 工程 学 硕士 学 位 ， 并 继续 在 意 
利 罗马 第 二 大 学 (University of Rome Tor Vergata) 和 英国 埃 塞 克 斯 大 学 (University of Essex ) 
学 习 。 他 的 兴趣 主要 包括 机 器 /深度 学 习 、 强 化 学 习 、 大 数据 ， 以 及 受 生 物 启 发 的 自 适 应 系 
统 、 神 经 科学 和 自然 语言 处 理 等 。 











[= 
















































































异步 社区 好 好 好 你 最 棒 (13574065152) 专 享 请 尊重 版 权 





切 波 比 (Chiheb Chebbi) 是 信息 安全 的 爱好 者 、 作 家 和 技术 记 
个 方面 拥有 丰富 经 验 。 他 的 兴趣 主要 在 于 渗透 测试 、 机 器 学 习 等 。 
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F 论 员 ， 在 信息 安全 的 各 




















人 和 堂 ， 他 所 提 H 











的 建议 已 被 许多 世界 级 的 信息 安全 会 议 所 接受 。 
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目前 他 已 被 列 入 许多 名 
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无 监督 学 习 是 数据 科学 中 一 个 重要 的 分 支 ， 其 目标 是 训练 用 于 学 习 数 据 集结 构 的 模型 ， 
并 为 用 户 提供 关于 新 样本 的 有 用 信息 。 在 许多 不 同 的 业务 部 门 〈 如 市 场 营 销 、 商 业 智 能 、 
战略 等 ) 中 ， 无 监督 学 习 一 直 在 帮助 管理 者 根据 定性 和 定量 〈 最 重要 的 ) 方法 做 出 最 佳 决 
策 。 在 数据 变 得 越 来 越 普遍 上 且 存 储 成 本 不 断 下 降 的 今天 ， 分 析 真 实 、 复 杂 数 据 集 的 可 能 性 
有 助 于 将 传统 的 商业 模式 转变 为 新 的 、 更 准确 的 、 响 应 也 更 迅速 、 更 有 效 的 模式 。 因 为 要 
关注 所 有 方法 的 优 缺 点 ， 并 增加 对 每 个 特定 领域 的 最 佳 潜在 策略 的 了 解 ， 所 以 数据 科学 家 
对 很 多 可 能 性 还 没有 一 个 清晰 的 认识 。 本 书 不 是 一 个 详尽 的 资源 (实际 上 也 不 可 能 有 )， 而 
是 一 种 参考 ， 让 你 开始 探索 这 个 世界 ， 为 你 提供 可 以 立即 使 用 和 可 供 评 估 的 不 同方 法 。 我 
希望 不 同 背景 的 读者 都 能 够 学 到 有 价值 的 东西 来 改善 业务 ， 并 且 和 希望 你 对 无 监督 学 习 这 个 
有 趣 的 主题 有 更 多 的 研究 ! 


目标 读者 


























































































































































































































































































































本 书 的 目标 读者 是 数据 科学 家 〈 有 抱负 且 专 业 的 )、 机 器 学 习 实践 者 和 开发 人 员 ， 他 们 
想 要 学 习 如 何 实施 最 常见 的 无 监督 学 习 算法 并 优化 参数 ， 为 来 自 所 有 业务 领域 的 不 同 利益 
相关 者 提供 有 价值 的 见解 。 


本 书 内 容 


第 1 章 ， 无 监督 学 习 入 门 ， 从 非常 务实 的 角度 介绍 机 器 学 习 和 数据 科学 。 本 章 讨论 主 
要 的 概念 并 展示 一 些 简 单 的 例子 ， 重 点 关注 无 监督 学 习 的 问题 结构 。 
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第 2 章 ， 聚 类 基础 知识 ， 开 始 对 聚 类 算法 进行 探索 。 本 章 分 析 最 常见 的 方法 和 评 佑 指 
标 ， 以 及 演示 如 何 调 整 超 参 数 并 从 不 同 角度 评估 性 能 的 具体 示例 。 
第 3 章 ， 高 级 聚 类 ， 讨 论 一 些 更 复杂 的 算法 。 本 章 对 第 2 章 中 分 析 的 许多 问题 使 用 更 
强大 、 更 灵活 的 方法 重新 评估 。 如 果 基 本 算法 的 性 能 不 符合 要 求 , 就 需要 使 用 这 些 高 级 算法 。 
第 4 章 ， 实 操 中 的 层次 聚 类 ， 致 力 于 介绍 一 系列 算法 ， 可 根据 特定 标准 计算 完整 的 聚 
类 层次 结构 。 本 章 分 析 最 常见 的 策略 以 及 可 提高 方法 有 效 性 的 特定 性 能 指标 和 算法 变 体 。 
第 5 章 ， 软 聚 类 和 高 斯 混合 模型 ， 侧 重 于 一 些 著 名 的 软 聚 类 算法 ， 特 别 强调 高 斯 混合 ， 
它 允 许 在 非常 合理 的 假设 下 定义 所 生成 的 模型 。 
第 6 章 ， 异 常 检测 ， 讨 论 了 无 监督 学 习 的 特定 应 用 新 值 和 异常 值 检 测 。 本 章 的 目的 
是 分 析 一 些 可 以 有 效 使 用 的 常用 方法 ， 以 便 了 解 新 样本 是 否 可 以 被 视 为 有 效 样本 ， 或 者 是 
否 有 需要 特别 注意 的 异常 值 。 
第 7 章 ， 降 维 与 分 量 分 析 ， 涵 盖 了 降 维 、 分 量 分 析 和 字典 学 习 相关 的 常用 且 强 大 的 方 
去 。 这 些 示例 展示 了 如 何在 不 同 的 特定 场景 中 有 效 地 执行 此 类 操作 。 
第 8 章 ， 无 监督 神经 网 络 模型 ， 讨 论 了 一 些 非 常 重 要 的 无 监督 神经 网 络 模型 ， 特 别 是 
针对 可 以 学 习 通用 数据 生成 过 程 结构 的 网 络 以 及 执行 降 维 的 网 络 。 
第 9 章 ， 生 成 式 对 抗 网 络 和 自 组 织 映 射 ， 继 续 对 一 些 深 度 神经 网 络 进行 分 析 ， 这 些 神 
经 网 络 可 以 学 习 数 据 生成 过 程 的 结构 并 输出 从 这 些 过 程 中 抽取 的 新 样本 。 此 外 ， 本 章 还 讨 
论 了 一 种 特殊 的 网 络 〈 如 SOM)， 并 展示 了 一 些 实际 案例 。 
第 10 章 ， 问 题解 答 ， 针 对 本 书 各 章 的 问题 给 出 解答 。 


如 何 充 分 利用 本 书 
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本 书 需 要 你 有 机 器 学 习 和 Python 编程 的 基本 知识 。 此 外 ,为 了 充分 理解 书 中 所 有 的 理 
论 ， 还 需要 你 了 解 大 学 阶段 的 概率 论 、 微 积分 和 线性 代数 等 相关 知识 。 但 是 ， 不 熟悉 这 些 
知识 的 读者 也 可 以 跳 过 数学 讨论 ， 只 关注 实践 方面 的 内 容 。 在 需要 时 ， 你 可 以 参考 相关 论 
文 和 书籍 ， 以 便 更 深入 地 理解 复杂 的 概念 。 


使 用 约定 






































本 书 中 使 用 了 许多 文本 约定 。 
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放生 


站 


让 








CodeInText :表示 文本 中 的 代码 、 数 据 库 表 名 、 文 件 夹 名 、 文 件 名 、 文 件 扩展 名 、 路 
径 名 、 虚 拟 URL、 用 户 输 入 和 Twitter 句柄 。 举 例 说 明 :“ 将 下 载 的 WebStorm-10*.dmg 
磁盘 映像 文件 作为 系统 中 的 另 一 个 磁盘 挂 载 。” 























代码 块 设置 如 下 : 
XxX train = faces['images'] 
xX train = (2.0 * X train) - 1.0 


widthn = X train.shapel[1] 
height = X train.shape[2] 




















当 我 们 希望 引起 你 对 特定 部 分 的 注意 时 ， 相 关 的 行 或 整体 将 以 粗 体 显 示 : 


import tensorflow as tf 


session=tf.InteractiveSession (graph=graph) 
tf.global variables initializer() .run() 























粗 体 : 表示 新 术语 、 重 要 词 。 例 如 当 菜 单 或 对 话 框 中 的 单词 出 现在 正文 中 时 ， 要 用 粗 
体 显 示 。 























而 是 一 个 示例 : "Select System info from the Administration panel." 

















F 
| 警告 或 重要 说 明 图 示 ] 


人: 是 示 或 技巧 图 示 ] 
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贷 产 与 文 持 


本 书 由 异步 社区 出 品 ， 社 区 (https://www.epubit.com/) 为 您 提供 相关 资源 和 后 续 服 务 。 


配套 资源 

本 书 提供 配套 资源 ， 要 想 获 得 该 配套 资源 ， 请 在 异步 社区 本 书页 面 中 点 击 荐 23， 
跳 转 到 下 载 界面 ， 按 提示 进行 操作 即 可 。 注 意 : 为 保证 购书 读者 的 权益 ， 该 操作 会 给 出 相 
关 提 示 ， 要 求 输入 提取 码 进行 验证 。 


提交 勘误 
作者 和 编辑 尽 最 大 努力 来 确保 书 中 内 容 的 准确 性 ， 但 难免 会 存在 朴 漏 。 欢 迎 您 将 发 现 
的 问题 反馈 给 我 们 ， 帮 助 我 们 提升 图 书 的 质量 。 
当 您 发 现 错误 时 ， 请 登录 异步 社区 ， 按 书 名 搜索 ， 进 入 本 书页 面 ， 点 击 “ 提 交 勘误 ”， 
输入 勘误 信息 ， 点 击 “ 提 交 ” 按 钮 即 可 。 本 书 的 作者 和 编辑 会 对 您 提交 的 勘误 进行 审核 ， 
确认 并 接受 后 ， 您 将 获 赠 异 步 社区 的 100 积分 。 积 分 可 用 于 在 异步 社区 兑换 优惠 券 、 样 书 


或 奖品 。 













































































































































































详细 信息 写 书评 提交 勘误 
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2 资源 与 支持 


与 我 们 联系 


我 们 的 联系 邮箱 是 contact@epubit.com.cn。 

如 果 您 对 本 书 有 任何 疑问 或 建议 ， 请 您 发 邮件 给 我 们 ， 并 请 在 邮件 标题 中 注 明 本 书 书 
名 ， 以 便 我 们 更 高 效 地 做 出 反馈 。 

如 果 您 有 兴趣 出 版 图 书 、 录 制 教学 视频 ， 或 者 参与 图 书 翻译 、 技 术 审 校 等 工作 ， 可 以 发 
邮件 给 我 们 ， 有 意 出 版 图 书 的 作者 也 可 以 到 异步 社区 在 线 投 稿 〈 直 接 访 问 www.epubit.com/ 
selfpublish/submission 即 可 )。 

如 果 您 是 学 校 、 培 训 机 构 或 企业 ， 想 批量 购买 本 书 或 异步 社区 出 版 的 其 他 图 书 ， 也 可 
以 发 邮件 给 我 们 。 

如 果 您 在 网 上 发 现 有 针对 异步 社区 出 品 图 书 的 各 种 形式 的 盗版 行为 ， 包 括 对 图 书 全 部 
或 部 分 内 容 的 非 授 权 传 播 ， 请 您 将 怀疑 有 侵权 行为 的 链接 发 邮件 给 我 们 。 您 的 这 一 举动 是 
对 作者 权益 的 保护 ， 也 是 我 们 持续 为 您 提供 有 价值 的 内 容 的 动力 之 源 。 
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相关 学 习 产 品 ， 为 作 译 者 提供 优质 出 版 服务 。 异 步 社区 创办 于 2015 年 8 月 ， 提 供 大 量 精 品 
IT 技术 图 书 和 电子 书 ， 以 及 高 品质 技术 文章 和 视频 课程 。 更 多 详情 请 访问 异步 社区 官网 
https:/www.epublit.com 。 

“异步 图 书 ” 是 由 异步 社区 编辑 团队 策划 出 版 的 精品 IT 专业 图 书 的 品牌 ， 依 托 于 人 民 
邮电 出 版 社 近 30 年 的 计算 机 图 书 出 版 积累 和 专业 编辑 团队 , 相关 图 书 在 封面 上 印 有 异步 图 
书 的 LOGO。 异 步 图书 的 出 版 领域 包括 软件 开发 、 大 数据 、AI、 测 试 、 前 端 、 网 络 技术 等 。 
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在 本 章 中 ， 我 们 将 介绍 基本 的 机 器 学 习 概 念 ， 并 假设 你 已 经 具备 统计 学 和 概率 论 的 一 
些 基 础 知识 。 你 将 从 本 章 了 解 机 器 学 习 的 用 途 ， 并 增强 关于 数据 集 本 质 和 属性 知识 的 逻辑 
过 程 。 整 个 过 程 骨 在 构建 可 以 支持 业务 决策 的 描述 性 以 及 预测 性 模型 。 


无 监督 学 习 的 目的 是 为 数据 探索 、 挖 掘 和 生成 提供 工具 。 在 本 书 中 ， 你 将 通过 具体 的 
示例 和 分 析 探 索 不 同 的 场景 ， 并 且 学 习 应 用 基本 的 以 及 更 复杂 的 算法 来 解决 特定 问题 。 


在 这 个 导论 性 的 章节 中 ， 我 们 将 讨论 以 下 内 容 。 
。 为 什么 我 们 需要 机 器 学 习 ? 

。 描述 性 、 诊 断 性 、 预 测 性 和 规范 性 分 析 。 

。 机 器 学 习 的 类 型 。 

。 我 们 为 什么 要 使 用 Python? 


1.1 技术 要 求 



























































































































































本 章 中 的 代码 需求 如 下 。 
。 Python 3.5+〔 强 烈 推 荐 Anaconda 发 行 版 )。 
。 库 。 


m SciPy 0.19+。 
@ NumPy 1.10+。 


m scikit-learn 0.19+。 
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2 第 1 章 无 监督 学 习 入 门 
Dandas 0.22+。 
m Matplotlib 2.0+。 


m Seaborn 0.9+。 


示例 代码 可 在 本 书 配套 的 代码 包 中 找到 。 


1.2 为 什么 需要 机 器 学 习 
































数据 无 处 不 在 。 此 时 此 刻 , 成 干 上 万 的 系统 正在 收集 构成 特定 服务 的 历史 记录 、 日 志 、 



































j 户 交互 数据 ， 以 及 许多 其 他 相关 元 素 。 仅 在 几 十 年 前 ， 大 多 数 公 司 甚至 无 法 有 效 地 









































里 1% 的 数据 。 出 于 这 个 原因 ， 数 据 库 会 被 定期 清理 ， 只 








重要 数据 才能 永久 存储 在 服 








器 中 。 


























次 玖 


而 现 如 今 ， 几 乎 每 家 公司 都 可 以 利用 可 扩展 的 云 基础 架构 来 应 对 不 断 增 长 的 数据 量 。 














Apache Hadoop 或 Apache Spark 等 工具 允许 数据 科学 家 和 工程 ) 
在 这 一 点 上 ， 所 有 的 障碍 都 被 扫除 ， 大 众 化 的 进程 已 经 到 位 。 然 而 ， 这 些 大 数据 集合 的 真 
正 价值 又 是 什么 呢 ? 从 商业 角度 看 ， 信 息 只 有 在 有 助 于 做 出 正确 决策 、 减 少 不 确 定性 并 提 
供 更 好 的 情境 洞察 时 才 有 价值 。 这 意味 着 ， 没 有 合适 的 工具 和 知识 ， 































































































说 只 会 增加 成 本 ， 需 要 限制 以 增加 利润 。 














机 器 学 习 是 计算 机 科学 《特别 是 人 工 智能 ) 的 一 个 大 分 文 ， 其 目的 是 通过 利用 现 有 数 
日 于 本 书 致力 于 实用 的 无 监督 解决 方案 ， 我 们 
将 只 关注 通过 寻找 隐藏 原因 和 关系 来 描述 此 类 情况 的 算法 。 虽 然 仅 从 理论 角度 出 发 ， 也 有 











上 
据 集 来 实现 现实 中 描述 性 和 预测 性 的 模型 。 上 






















































































ij 实现 大 数据 的 复杂 传输 。 


























堆 数据 对 于 公司 来 

























































































助 于 展示 机 器 学 习 问 题 之 间 的 主要 差异 ， 但 是 只 有 对 目标 有 完全 的 认识 《不 局 限于 技术 方 























面 )， 才 能 对 最 初 的 问题 产生 理 ' 





a 














生 回答 。 这 就 是 我 们 需要 机 器 学 习 的 原因 。 














我 们 可 以 说 人 类 非凡 的 认 知 能 力 启 发 了 许多 系统 , 但 是 








AL 局/ 
当 影 响 





因素 的 数量 显著 增加 时 ， 








人 类 就 缺乏 分 析 技 能 了 。 例 如 ， 如 果 你 是 第 一 次 与 班级 学 生 见 面 的 老师 ， 在 浏览 整个 小 组 







































































后 你 能 粗略 地 估计 女生 的 百分比 。 通 常 ， 即 便 是 对 两 个 或 更 多 人 做 
确 的 或 接近 实际 值 的 。 然 而 ， 如 果 我 们 将 全 校 所 有 人 聚集 在 操场 来 如 














区 分 就 显得 不 那么 明显 了 。 这 是 因为 所 有 学 生 在 课堂 上 都 是 一 目 了 然 的 ， 但 是 在 操场 里 区 
































分 性 别 会 受到 某 些 因素 的 限制 《例如 较 矮 的 人 会 被 较 高 的 人 遮挡 
可 以 认为 大 量 的 数据 通常 带 有 大 量 的 信息 。 为 了 提取 和 分 类 信息 ， 












































的 方法 。 
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8 的 估算 ， 也 可 能 是 准 
E 复 这 个 实验 ， 性 别 的 

















)。 抛 开 这 一 层 因素 ， 我 们 
我 们 有 必要 采取 自动 化 























1.2 为 什么 需要 机 器 学 习 3 























在 进入 1.2.1 节 前 ,让 我 们 讨论 一 下 最 初 由 高 德 纳 (Gartner) 定义 的 描述 性 分 析 (Descriptive 
Analysis)、 诊 断 性 分 析 (Diagnostic Analysis)、 预 测 性 分 析 (Predictive Analysis〉 和 规范 性 
分 析 (Prescriptive Analysis) 的 概念 。 但 是 ， 在 这 种 情况 下 ， 我 们 希望 关注 正在 分 析 的 系统 





(例如 通用 情况 )， 以 便 对 其 行为 进行 越 来 越 多 的 控制 。 



































描述 性 分 析 、 诊 断 性 分 析 、 预 测 性 分 析 和 规范 性 分 析 的 流程 如 图 1-1 所 示 。 











描述 性 分 析 诊断 性 分 析 预测 性 分 析 规范 性 分 析 

系统 现在 如 为 什么 我 们 系统 将 来 如 我 们 如 何 影 

何 工作 的 9。 [ES》 观 察 到 这 种 “ES》 何 运作 9 。 ES》 响 行为 ? 
行为 9 





图 1-1 描述 性 分 析 、 诊 断 性 分 析 、 预 测 性 分 析 和 





规范 性 分 析 的 流程 





1.2.1 描述 性 分 析 











几乎 所 有 的 数据 科学 场景 中 要 解决 的 第 一 个 问题 都 是 了 解 其 本 质 。 我 们 需要 知道 系统 


























如 何 工作 或 数据 集 描 述 的 内 容 是 什么 。 如 果 没 有 这 种 分 析 ， 我 们 的 知识 又 是 有 限 的 ， 将 无 
法 做 出 任何 假设 。 例 如 我 们 可 以 通过 图 表 观 察 一 个 城市 几 年 的 平均 温度 ， 但 是 如 果 我 们 无 















































法 描述 发 现 现 象 的 相关 性 、 季 节 性 、 趋 势 性 的 时 间 序 列 ， 其 他 任何 问题 就 不 可 能 被 解决 。 








在 其 体 情况 下 ， 如 果 没 有 发 现 对 象 组 之 间 的 相似 性 ， 就 无 法 找到 一 种 方法 来 总 结 它们 的 共 
同 特征 。 数 据 科学 家 必须 针对 每 个 特定 问题 使 用 特定 工具 ， 但 在 此 阶段 结束 时 ， 所 有 可 能 
(以 及 有 用 的 ) 的 问题 将 得 到 解答 。 

























































































此 外 ， 这 个 过 程 具有 明确 的 商业 价值 ， 让 不 同 的 利益 相关 者 参与 的 目的 是 收集 他 们 的 
知识 并 将 其 转化 为 共同 语言 。 例 如 在 处 理 医疗 保健 数据 时 ， 医 生 可 能 会 谈论 遗传 因素 ， 但 
就 我 们 的 目的 而 言 ， 最 好 是 某 些 样本 之 间 存 在 相关 性 ， 因 此 我 们 并 未 完全 将 它们 视 为 统计 上 





的 独立 因素 。 








































































































般 而 言 ， 描 述 性 分 析 的 结果 包含 所 有 度量 评估 和 结论 的 摘要 ， 这 些 评估 和 结 








论 是 对 某 种 情况 进行 限定 和 减少 不 确定 性 所 必需 的 。 在 温度 图 表 的 例子 中 ， 数 据 科学 家 应 
该 能 够 解答 自动 关联 、 峰 值 的 周期 、 潜 在 异常 值 的 数量 以 及 趋势 的 出 现 等 问题 。 
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1.2.2 ”诊断 性 分 析 
到 




















目前 为 止 ， 我 们 已 经 处 型 














系统 描述 的 














自然 问题 与 很 多 











EE 了 输 





























于 观测 ， 又 可 以 完全 隐藏 。 时 间 序 列 中 的 季节 性 显然 受 


人 
瘦 


值 又 该 如 
例 妇 


何 解释 呢 ? 
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[我 们 在 一 个 处 于 冬季 的 地 




















数据， 这 是 在 特定 的 基 而 
因素 有 关 。 温 度 更 多 取决 于 气象 和 地 理 因 素 ， 这 些 因素 既 易 
年 中 的 周 














流程 生成 之 后 观察 到 的 。 



































期 影响 ， 但 所 出 现 的 











区 发 现 了 一 个 温度 峰值 ， 我 们 怎样 才能 证 明 它 的 合理 
尼 ? 在 简单 的 方法 中 ， 我 们 可 以 将 其 视 为 可 过 滤 掉 的 噪声 异常 值 。 但 是 ， 如 果 该 值 已 











经 被 观察 到 并 且 有 存在 价值 (例如 所 有 各 方 都 认为 这 不 是 错误 )， 我 们 应 该 假设 存在 隐藏 





(或 潜在 ) 原因 。 








这 可 能 是 令 人 惊讶 的 ， 但 大 多 数 复杂 的 场景 都 具有 大 量 
为 因素 )。 总 的 来 说 ， 这 不 是 一 个 糟糕 的 情 
模型 中 并 通过 数据 集 了 解 它 们 





























EX 



























































男 一 方面 ， 决 定 丢 弃 所 有 未 知 元 素 意味 着 
性 。 因 此 ， 诊 断 分 析 的 主要 目标 不 一 定 是 
素 (也 称 为 因子 )， 以 及 所 有 的 潜在 因 


在 某 种 程度 上 ， 因 
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住 确 































































































但 要 检测 潜在 原因 与 可 观察 效果 之 间 存 
的 ， 并 且 有 助 于 找 出 某 个 确定 的 原因 带 
最 初 提 
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如 果 收 集 





























也 就 是 说 


测 模 型 了 。 创 建 预测 模型 的 目的 是 
情况 下 ， 我 们 将 这 个 阶段 与 下 一 个 阶 
趣 ( 例 如 温度 将 在 下 个 月 如 何 变 化 )， 而 是 对 我 们 
， 我 们 只 关注 预测 











了 整体 描述 性 知识 并 且 对 











以 分 析 的 潜在 原 
况 ， 但 正如 我 们 将 要 讨论 的 那样 ， 将 它们 包含 在 
影响 是 非常 重要 的 。 


降低 模型 的 预测 能 力 ， 








因 (有 时 称 











首 且 会 成 比例 地 降低 

















找 出 所 有 因素 ， 而 




















三 
碟 





列 出 可 观察 和 可 测量 的 








素 (通常 概括 为 单个 全 














局 因 


素 )。 





























在 的 关系 就 较为 困难 。 
来 特 








心 z 国人 


不 办 2 

















中 讨论 。 

















潜在 原 


因 的 认识 已 令 人 满意 ， 那 么 我 们 就 可 以 创建 















































我 们 不 


需要 机 器 学 习 用 于 确 

















视 为 黑 























的 温度 可 以 建 模 为 条 件 术 





民 据 模 


， 考 虑 最 重要 的 因 





型 





段 一 起 分 析 ， 因 











为 我 们 可 以 轻松 监控 效果 ， 诊 断 分 析 通 常 类 似 于 道 向 工程 的 过 程 ， 
因此 这 
响 的 概率 。 这 样 ， 排 除非 影响 分 量 和 确定 
F 除 的 关系 也 更 容易 。 然 而 ， 这 个 过 程 需 要 更 深入 的 统计 学 知识 ， 除 了 一 些 例子 如 高 


斯 混合 之 外 ， 这 类 分 析 将 不 会 在 本 

















' 分 析 通 常 是 概率 性 








本 身 的 历史 和 结构 来 推断 未 来 的 结果 。 在 许 
为 我 们 很 少 对 系统 的 自由 演变 感 兴 
可 以 影响 输出 的 方式 感 兴趣 。 

素 。 第 一 个 需要 考虑 的 








因素 就 是 流程 性 质 。 
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定性 过 程 ， 除 非 这 些 过 程 的 复杂 性 大 高 以 至 于 我 们 不 得 不 将 它们 
里 子 。 在 本 章 将 要 讨论 的 大 多 数 例子 都 是 无 法 消除 不 确定 和 





的 随机 过 程 。 例 如 一 天 中 


既 率 例如 高 斯 )， 具 体 取决 于 前 面 的 观测 值 。 因 此 ， 预 测 














不 是 将 系 
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统 变 为 确定 性 系统 ， 而 是 减少 分 布 的 方差 ， 使 概率 只 有 在 小 的 温度 范围 内 ， 才 会 很 高 。 另 外 ， 
正如 我 们 所 知 , 许多 潜在 因素 在 幕后 工作 , 该 选择 会 对 最 终 的 准确 定性 产生 极 大 的 不 利 影响 ， 
因此 不 能 接受 基于 尖峰 分 布 的 模型 (例如 基于 概率 为 1 的 单一 结果 )。 

如 果 模 型 被 参数 化 ， 变 量 受 学 习 过 程 影响 〈 例 如 高 斯 的 均值 和 协 方差 矩阵 )， 那 么 我 们 
的 目标 是 在 偏差 -方差 权衡 中 找 出 最 佳 平衡 。 由 于 本 章 只 是 概述 ， 我 们 不 用 数学 公式 讲解 概 
念 ， 只 需要 一 个 定义 即 可 (更 多 细节 可 以 在 Mastering Machine Learning Algorithms 一 书 中 
找到 )。 

定义 统计 预测 模型 的 常用 术语 是 估计 量 。 估 计量 偏差 受 不 正确 的 假设 和 学 习 过 程 可 测 
量 的 影响 。 换 句 话 说 ， 如 果 一 个 过 程 的 平均 值 是 5.0， 但 我 们 的 估计 量 平 均值 为 3.0， 那 就 
可 以 说 该 模型 是 有 偏差 的 。 考虑 到 前 面 的 例子 ， 如 果 观 测 值 和 预测 之 间 的 误差 不 为 零 ， 则 
我 们 使 用 有 偏 估计 。 重 要 的 是 要 理解 并 不 是 说 每 个 估计 都 必须 有 一 个 零 误差 ， 而 是 在 收集 
足够 的 样本 并 计算 均值 时 ， 它 的 值 应 该 非常 接近 零 ( 只 有 无 限 样本 才能 为 零 )。 当 它 大 于 零 
时 ， 就 意味 着 我 们 的 模型 无 法 正确 预测 训练 值 。 很 明显 ， 我 们 正在 寻找 无 偏 估 计量 ， 这 些 
估计 量 基 本 上 可 以 产生 准确 的 预测 。 
另 一 方面 ， 估 计量 方差 可 以 衡量 不 属于 训练 集 的 样本 的 鲁 棒 性 。 在 本 节 开 头 ， 我 们 提 
到 过 程 通常 是 随机 的 。 这 意味 着 任何 数据 集 都 必须 被 视 为 从 特定 数据 生成 过 程 pu 中 提取 
的 。 如 果 我 们 有 足够 的 代表 性 元 素 x;EX, 我 们 可 以 假设 使 用 有 限 数据 集 卫 训练 分 类 器 会 生 
成 一 个 模型 ， 该 模型 能 够 对 从 pga 中 提取 的 所 有 潜在 样本 进行 分 类 。 

例如 如 果 需 要 对 仪 限 于 肖像 的 面部 分 类 器 进行 建 模 (不 允许 进一步 的 面部 姿势 )， 那么 
我 们 可 以 收集 一 些 不 同 个 体 的 肖像 。 建 模 过 程 需 要 关注 的 是 不 排除 现实 生活 中 可 能 存在 的 
类 别 。 假 设 我 们 有 10000 张 不 同年 龄 和 性 别 的 人 物 免 冠 照片 ， 但 没有 任何 戴 帽子 的 肖像 。 
当 系 统 投 入 生产 时 ， 就 会 收 到 客户 打 来 的 电话 ， 反 映 系 统 对 许多 图 片 进行 了 错误 分 类 。 经 
过 分 析 ， 会 发 现 发生 错 误 分 类 的 是 戴 帽 子 的 人 。 显 然 ， 这 个 肖像 模型 对 错误 不 负责 ， 因 为 
它 用 仅 代表 数据 生成 过 程 的 一 个 区 域 的 样本 进行 训练 。 因 此 ， 为 了 解决 问题 ， 我 们 要 收集 
其 他 样本 ， 并 重复 训练 。 但 是 ， 现 在 我 们 决定 使 用 更 复杂 的 模型 ， 和 希望 它 能 更 好 地 运行 。 
结果 我 们 观察 到 更 差 的 验证 准确 性 〈 例 如 在 训练 阶段 未 使 用 子 集 的 准确 性 ) 以 及 更 高 的 训 
练 精度 。 这 里 发 生 了 什么 ? 

当 估 计量 学 会 完美 地 对 训练 集 进行 分 类 但 是 对 未 见 过 的 样本 分 类 能 力 较 差 时 ， 我 们 可 以 
说 它 是 过 拟 合 的 ， 并 且 其 方差 对 于 特定 任务 来 说 太 高 〈 反 之 ， 一 个 欠 拟 合 模型 则 具有 较 大 的 
偏差， 并 且 所 有 预测 都 非常 不 准确 )。 直 观 地 讲 ， 该 模型 对 训练 数据 过 于 了 解 ， 已 经 失去 了 
概括 能 力 。 为 了 更 好 地 理解 这 个 概念 ， 让 我 们 看 一 下 高 斯 数据 的 生成 过 程 ， 如 图 1-2 所 示 。 
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1-2 ”高 斯 数据 的 生成 过 程 ( 实 线 ) 和 样本 数据 的 直方 图 
如 果 训 练 集 没有 以 完全 统一 的 方式 ， 采样 或 者 部 分 不 平衡 ( 某 些 类 的 样本 比 其 他 类 少 )， 
或 者 模型 过 度 拟 合 ， 则 结果 可 能 由 不 准确 的 分 布 表 示 ， 如 图 1-3 所 示 。 











图 1-3 不 准确 的 分 布 
在 这 种 情况 下 ， 模 型 会 被 迫 学 习 训 练 集 的 细节 ， 直 到 它 从 分 布 中 排除 了 许多 潜在 的 样 
本 。 该 结果 不 再 是 高 斯 分 布 ， 而 是 双 峰 分 布 ， 此 时 一 些 概 率 会 偏 低 。 当 然 ， 测 试 和 验证 集 
是 从 训练 集 未 覆盖 的 小 区 域 中 采样 的 (因为 训练 数据 和 验证 数据 之 间 没 有 重 辣 )， 因 此 模型 
将 在 其 任务 中 失败 ， 从 而 提供 完全 错误 的 结果 。 
换 名 话说， 模型 已 经 学 会 了 处 理 太 多 细节 而 导致 方差 太 高， 在 合理 的 闵 值 范围 内 增加 了 不 
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同 分 类 的 可 能 性 范围 。 例 如 从 肖像 分 类 器 可 以 了 解 到 ， 戴 蓝 色 眼 镜 的 人 是 年 龄 范围 在 30 一 40 岁 
的 男性 (这 是 不 切实 际 的 情况 ， 因 为 细节 水 平 通常 非常 低 , 但 是 对 了 解 问 题 的 本 质 是 有 帮助 的 )。 
可 以 总 结 一 下 , 一 个 好 的 预测 模型 必须 具有 非常 低 的 偏差 和 适当 低 的 方差 。 不 辛 的 是 ， 
通常 不 可 能 有 效 地 最 小 化 这 两 个 值 ， 因 此 我 们 必须 接受 平衡 。 
有 良好 泛 化 能 力 的 系统 可 能 具有 较 高 的 偏差 ， 因 为 它 无 法 捕获 所 有 细节 。 相 反 ， 高 
方差 允许 非常 小 的 偏差 ， 但 模型 的 能 力 几 乎 限于 训练 集 。 在 本 书 中 ， 我 们 不 打算 讨论 分 类 
器 ， 但 是 你 应 该 完全 理解 这 些 概念 ， 以 便 理 解 在 处 理 项 目 时 可 能 遇 到 的 不 同行 为 。 





















































1.2.4 规范 性 分 析 


这 样 做 的 于 
个 概念 翻译 成 纯 机 器 学 习 语 言 ， 
如 1.2.3 节 所 述 , 此 阶段 通常 与 预测 怕 








三 | 
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FE 要 目的 








在 某 些 特定 各 
































析 更 复杂 








的 模型 。 


有 时 ， 当 没有 必要 时 ， 我 们 就 








4 涡 下 ， 预 测 仅 限于 空 输入 演变 (例如 在 温度 示例 中 )， 并 
主要 在 于 控 M 





回答 以 下 问题 ， 如 何 影 响 系统 的 输出 ? 为 了 避免 混淆 ， 最 好 ; 
因此 问题 可 能 是 获得 特定 输出 需要 哪些 输入 值 ? 

分 析 合 并 , 因为 模型 通常 用 于 这 两 个 任务 。 但 是 ， 
必须 在 规定 阶段 分 


各 这 




































































判 影响 特定 输出 的 所 有 因素 。 
只 做 表面 分 析 。 当 原因 不 可 控 时 《例如 气象 事件 )， 或 者 


























当 包含 全 
并 
够 高 效 工作 。 




















同时 


例如 在 深度 学 习 中 ， 我 们 可 
生 特 定 的 输出 类 。 以 肖像 分 类 器 为 例 ,我 们 可 能 有 兴 
:分析 通常 对 上 
此 ， 反 向 模型 可 以 通过 显示 不 同 几 何 区 域 的 影响 来 帮助 解决 规范 公 


诊断 性 





局 潜在 参数 集 更 简单 时 ， 训 
已 经 开发 了 许多 算法 ,在 已 存在 潜在 








出 于 这 个 原 


| ， 我 们 隐 含 地 假设 模型 有 











范 性 分 析 超 出 了 本 书 的 范 


妊 音 沾 


续 理 -有 








考虑 这 样 日 





是 无 效 的 ， 


的 步骤。 





会 发 生 这 种 情况 。 后 一 种 选择 在 机 器 学 习 中 非常 普遍 ， 

因素 (例如 EM 或 SVD 推荐 系统 ) 的 情况 下 仍 能 

因 ， 我 们 并 没有 关注 这 一 特定 方面 (这 在 系统 理论 中 非常 重要 )， 
究 不 同 输入 产生 许多 可 能 输出 的 能 力 。 

以 创建 反 向 模型 来 生成 输入 空间 的 显著 映射 ， 从 而 强制 产 

取 发 现 哪 些 视觉 因素 会 影响 类 的 输 

因为 原因 非常 复杂 并 且 其 水 平 太 低 (例如 轮廓 的 形状 )。 因 

FE 问题 。 然 而 ， 完 整 的 规 

此 不 会 在 后 
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上 o 
























































围 ， 在 许多 情况 下 ， 也 没有 必要 使 用 规范 性 分 析 ， 因 
现在 让 我 们 来 分 析 不 同类 型 的 机 器 学 习 算 法 。 
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FP， 我 们 


在 这 一 节 , 我 们 将 简要 
在 接 下 来 的 部 分 
数学 概念 ， 则 可 以 跳 过 详细 信息 。 但 是 ， 研 究 所 有 未 知 


鳃 女 了 站 





介绍 不 同类 型 的 机 器 学 习 ,， 并 重点 关注 它们 的 主要 特点 和 差异 。 
将 讨论 非 正 式 定 义 ， 以 及 正式 定义 。 如 果 你 不 熟悉 讨论 中 涉及 的 


的 理论 因素 是 非常 明智 的 ， 因 为 它 
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们 对 于 理解 后 面 章节 的 概念 至 关 重 要 。 
1.3.1 有 监督 学 习 算 法 


在 有 监督 的 场景 中 ， 模 型 的 任务 是 查找 样本 的 正确 标签 ， 假 设 在 训练 集 时 标记 正确 ， 
并 有 可 能 将 估计 值 与 正确 值 进 行 比较 。 有 监督 这 个 术语 源 自 外 部 教学 代理 的 想法 ， 其 在 每 
次 预测 之 后 提供 精确 和 即时 的 反馈 。 模 型 可 以 使 用 此 类 反馈 作为 误差 的 度量 ， 从 而 减少 错 
误 所 需 的 更 正 。 
更 正式 地 说 ， 如 果 我 们 假设 一 个 数据 生成 过 程 ， 数 据 集 p(x,y) 的 获取 如 下 : 
X={%, 7)}, 区) ,Ky pn)}, 其 中 (%,y,)~ p(x,y) 有 NN eR”, 
y; €(0,1,:…,M ) or y, e RR 
如 1.2 节 所 述 ， 所 有 样本 必须 是 从 数据 生成 过 程 中 统一 采样 的 独立 且 同 分 布 〈Independent 
and Identically Distributed，IID〉 的 值 。 特 别 地 ， 所 有 类 别 必须 代表 实际 分 布 ( 例 如 ， 如 果 
p(y=0)=0.4 且 ply=1)=0.6， 则 该 比例 应 为 40% 或 60%)。 但 是 ， 为 了 避免 偏差 ， 当 类 之 间 的 
差异 不 是 很 大 时 , 合理 的 选择 是 完全 统一 的 采样 , 并 且 对 于 y= 1,2,…,M 是 具有 相同 数量 的 代表 。 
通用 分 类 器 c(X;0) 可 以 通过 两 种 方式 建 模 。 
。 输出 预测 类 的 参数 化 函数 。 
。 参数 化 概率 分 布 ， 输 出 每 个 输入 样本 的 类 概率 。 
对 于 第 一 种 情况 ， 我 们 有 : 
=c(X;0)= f(x;0) 且 4,(y,7) 是 一 个 错误 的 测量 
考虑 整个 数据 集 闷 可 以 计算 全 局 成 本 函数 工 ; 
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J J 一 
了 = 一 d 了 二 d. i9 xX;0 
> (3,) > (yf 1;0)) 























由 于 工 仅 取决 于 参数 向 量 (x; 和 yi 是 常数 )， 因 此 通用 算法 必须 找到 最 小 化 成 本 函数 的 
最 佳 参数 向 量 。 例 如 在 回归 问题 〈 标 签 是 连续 的 ) 中 ， 误 差 度 量 可 以 是 实际 值 和 预测 值 之 
间 的 平方 误差 : 




















> yl¥Y ,ry 
人 f(x;0)) 





这 种 成 本 函数 可 以 用 不 同 的 方式 优化 (特定 算法 特有 的 ), 但 一 个 非常 常见 的 策略 ( 尤 
其 在 深度 学 习 中 ) 是 采用 随机 梯度 下 降 (Stochastic Gradient Descent，SGD ) 算法 。 它 由 
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以 下 两 个 步骤 的 迭代 组 成 。 

















。 使 用 少量 样本 x;EX 计 
EE 并 在 梯度 的 相反 方向 上 移动 参数 -VL ( 记 住 渐变 始终 指向 最 大 值 )。 











| 内 


。 更 新 权 
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梯度 VL 相对 于 参数 向 量 )。 











对 于 第 二 种 情况 ， 当 分 类 器 是 基于 概率 分 布 时 ,， 它 应 该 表示 为 参数 化 的 条 件 概 率 分 布 : 





换 句 话说 ， 
它 将 获得 : 


在 前 面 的 公式 中 ， 我 们 将 pa 表示 为 条 件 分 布 。 我 们 可 以 使 


c(x;0)= p($|x;0) 





器 现在 将 输出 给 定 输入 向 量 y 的 概率 。 现 在 的 目 











标 是 找到 最 佳 参数 集 ， 

















万 (| 天 9) > p(y |7) 


























概率 距离 度量 来 i 








行 优 














化 ， 例 如 Kullback-Leibler 散 度 Dk: (Dgz 始终 为 非 钠 ， 且 仅 当 两 个 分 布 相同 时 ，Dxz=0): 


N 
L= Di (pall p)= pulyi|N)log 
i=l. 








单 的 操作 ， 我 们 








N 
L= > paly, 
is 


因此 ， 生 成 














softmax 滤波 器 





在 这 两 种 情况 下 , 很 明显 隐藏 教师 模型 的 存 7 
地 ， 第 二 种 方法 对 达到 我 们 的 目的 非常 有 用 ， 因 此 如 果 你 还 不 太 清 楚 ， 

















校正 参数 。 特 别 


4 目 


3 





到 


| : 


Pasa (Yi | 元) 
p(y;|N;0) 


N es 
X) log pasa (yy; |[¥)— 2 pa ly |x)log p(y, |x;0) =—H(paa) + H(p, Pu) 
i=] 























的 成 本 函数 对 应 于 p 和 paws 之 间 交 又 炳 的 差 
炉 )。 训 练 策略 现在 是 基于 使 用 独 热 编码 表示 的 标签 
(1,0)， 那 么 所 有 元 素 的 总 和 必须 始终 等 于 1) 
(其 将 MM 值 转换 为 概率 分 布 ) 输出 。 

















直达 到 定 值 “数据 生成 过 程 的 


网 如 如 果 有 两 个 标签 0 一 (0,1) 和 1 一 
并 使 用 内 在 概率 (例如 在 逻辑 回 

















归 中 ) 或 























企 提 供 了 


致 的 误差 测量 ， 它 允许 模型 相应 地 























你 进一步 研究 它 (主要 定义 也 可 以 在 Machine Learning Algorithms, Second Edition 一 书 中 找到 )。 


我 们 现在 讨论 一 个 非常 基本 的 监督 学 习 示例 ， 它 是 
变 。 





~| 


单 时 间 序 列 的 演 
有 监督 的 h 





在 此 示例 中 ， 我 们 要 展示 如 何 使 用 二 维 数据 执 
个 包含 100 个 样本 的 自 定义 数据 集 ， 如 下 所 示 : 




















ello world ! 





import numpy as np 


import pandas as pd 





ms 














一 个 线性 回归 模型 ， 可 用 于 预测 简 























们 加 





单 的 线性 回归 。 特 别 地 ， 假 设 我 们 
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T= np.expand dims (np.linspace(0.0, 10.0, num=100), axis=1) 


X= (T * np.random.uniform(1.0, 1.5, size=(100, 


np.random.normal (0.0, 3.5, size=(100, 1)) 


1))) 


df = pd.DataFrame (np.concatenate([T, X], axis=1), columns=['t', 'x'"]) 


我 们 还 创建 了 一 个 pandas 的 DataFrame, 因为 使 用 seaborn 
全 fis. ek, 
(使 用 Matplotlib 或 seaborn )， 但 它 始 终 存在 于 库 中 。 








我 们 希望 用 一 种 综合 的 方式 表示 数据 集 ， 如 下 所 示 : 
x(t) =at+b 


此 任务 可 以 使 用 线性 回归 算法 执行 ， 如 下 所 示 : 




















from sklearn.linear model import LinearRegression 


lr = LinearRegression () 
,让 主 蕊 ( 叶 ;> 浆 ) 


Beint( x(t) = O33f}t. + CL 3f} "sformat (le .Soest 0 01; 


最 后 一 个 命令 的 输出 如 下 : 


X(t) = 1.169t + 0.628 


我 们 还 可 以 将 数据 集 与 回归 线 一 起 绘 第 








20 





|， 获 得 视觉 确认 ， 如 图 

















1-4 数据 集 与 回归 线 
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lr.intercept [0])) 


1-4 所 示 。 
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在 该 示例 中 ， 回 归 算 法 最 小 化 了 平方 误差 成 本 函数 ， 试 图 减 小 预测 值 与 实际 值 之 间 的 
差异 。 由 于 对 称 分 布 ， 所 以 高 斯 〈 空 均值 ) 噪声 对 斜率 的 影响 最 小 。 


1.3.2 无 监督 学 习 算 法 


4 


很 容易 想象 在 无 监督 的 场景 中 ， 没 有 隐藏 的 老师 ， 因 此 主要 目标 与 最 小 化 基本 事实 的 
预测 误差 无 关 。 实 际 上 ， 在 这 种 背景 下 ， 相 同 的 基本 事实 的 概念 具有 略微 不 同 的 含义 。 
实 上 ， 在 使 用 分 类 器 时 ， 我 们 希望 训练 样本 出 现 一 个 零 错 误 〈 这 意味 着 除了 真正 类 之 外 的 
其 他 类 永远 不 会 被 接受 为 正确 类 )。 
相反 ， 在 无 监督 问题 中 ， 我 们 希望 模型 在 没有 任何 正式 指示 的 情况 下 学 习 一 些 信息 。 
情况 意味 着 唯一 可 以 学 习 的 因素 是 样本 本 身 包含 的 。 因 此 ， 无 监督 算法 通常 则 在 发 现 
样本 之 间 的 相似 性 和 模式 ， 或 者 在 给 定 一 组 从 中 得 出 的 向 量 的 情况 下 ， 再 现 输入 分 布 。 现 
在 让 我 们 分 析 一 些 最 常见 的 无 监督 模型 类 别 。 

1. 聚 类 分 析 

聚 类 分 析 《〈 通 常 称 为 聚 类 ) 是 我 们 想 要 找 出 大 量 样本 中 共同 特征 的 示例 。 在 这 种 情况 
下 ， 我 们 总 是 假设 存在 数据 生成 过 程 pj (Xx) ， 并 且 将 数据 集 蕊 定义 为 : 


X= {XD ,Xv}, 其 中 坟 ~ PaaalX) 且 尺 eR” 


聚 类 算法 基于 一 个 隐 含 假设 ， 即 样本 可 以 根据 其 相似 性 进行 分 组 。 特 别 是 当 给 定 两 个 向 
量 , 相似 性 函数 被 定义 为 度量 函数 的 倒数 或 相反 数 。 例 如 ,如果 我 们 在 欧 几 里 得 空间 中 , 则 有 : 


1 
d(x,x,) = x -xO sR)=—— 
0 


在 前 面 的 公式 中 ,引入 了 常数 s 以 避免 除 以 零 。 很 明显 , d(a,c) < d(a,b) Ss(a,c) > s(a,b)。 
因此 ， 给 定 每 个 聚 类 去 的 代表 ， 我 们 可 以 根据 规则 创建 一 组 分 配 的 向 量 : 
C={x, :d(x;,L) < d(x;, He) Vk el(l,2,,i—l,it+l,., N.)} 

换 句 话说 ， 聚 类 包含 代表 距离 同 所 有 其 他 代表 相 比 最 小 的 所 有 元 素 。 这 意味 着 聚 类 包 
含 同 所 有 代表 相 比 与 代表 的 相似 性 最 大 的 样本 。 此 外 ， 在 分 配 之 后 ， 样 本 获得 与 同一 聚 类 
的 其 他 成 员 共 享 其 功能 的 权利 。 

事实 上 ， 聚 类 分 析 最 重要 的 应 用 之 一 是 尝试 提高 被 认为 相似 样本 的 同 质 性 。 例 如 推荐 
引擎 可 以 基于 用 户 向 量 的 聚 类 〈 包 含有 关 用 户 兴 趣 和 购买 产品 的 信息 ) 来 进行 推荐 。 一 上 且 
定义 了 组 ， 属 于 同一 聚 类 的 所 有 因素 都 被 认为 是 相似 的 ， 因 此 我 们 被 隐 式 授权 共享 差异 。 
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因素 (例如 评级 ) 时 ， 因 素 就 变 得 非常 有 效 了 。 
2. 生成 模型 


























如 果 用 户 A 购买 了 产品 P 并 对 其 进行 了 积极 评价 , 我 们 可 以 向 没有 购买 产品 的 用 户 B 推荐 
此 商品 ， 反 之 亦 然 。 该 过 程 看 似 随意 ， 但 是 当 因素 的 数量 很 大 并 且 特 征 向 量 包 含 许多 判别 























男 一 种 无 监督 方法 是 基于 生成 模型 。 这 个 概念 与 我 们 已 经 讨论 的 有 监督 算法 的 概念 没 



















































































有 太 大 区 别 ， 但 在 这 种 情况 下， 数据 生成 过 程 不 包含 任何 标签 。 因 此 ， 我 们 的 目标 是 对 参 


数 化 分 布 进行 建 模 并 优化 参数 ， 以 便 将 候选 分 布 与 数据 生成 过 程 之 间 的 距离 最 小 化 : 














q(x;0)= p(x;0) 
该 过 程 通 常 基于 Kullback-Leibler 散 度 或 其 他 类 似 度 量 : 





























Paata (7%) 


N 
L=D ta 到 aia Xi lo 一 
ki (Paaa || P) 之 (%,) 0 


在 训练 阶段 结束 时 ， 我 们 假设 了 ~0， 所 以 ppu。 通过 这 种 方式 ， 我 们 不 会 将 分 析 限 














制 在 可 能 样本 的 子 集 ， 而 是 限制 在 整个 分 布 。 使 用 生成 模型 ， 我 们 可 以 绘制 与 训练 过 程 选择 





























样本 截然 不 同 的 新 样本 ， 但 它们 始终 属于 相同 的 分 布 。 因 此 ， 它 们 《可 能 ) 总 是 可 以 接受 的 。 























例如 生成 式 对 抗 网 络 (Generative Adversarial Network，GAN) 是 一 





种 特殊 的 深度 学 











习 模 型 ， 它 能 够 学 习 图 像 集 的 分 布 ， 生 成 与 训练 样本 几乎 无 法 区 分 的 新 样本 (从 视觉 语义 
的 角度 来 看 )。 无 监督 学 习 是 本 书 的 主题 ， 因 此 我 们 不 会 在 此 处 进一步 讨论 GAN。 所 有 这 









































些 概念 将 在 第 9 章 〈 用 实际 例子 ) 进行 深入 讨论 。 
3. 关联 规则 
我 们 正在 考虑 的 最 后 一 种 无 监督 方法 是 基于 关联 规则 的 ， 它 在 数据 挖 扩 























忆 领 域 非常 重要 。 






































常见 的 情形 是 由 一 部 分 商品 组 成 的 商业 交易 集合 ， 目 标 是 找 出 商品 之 间 最 
如 购买 P; 和 Pj 的 概率 为 70% )。 特 定 算法 可 以 有 效 地 挖掘 整个 数据 库 ， 突 
到 的 战略 和 物流 目的 之 间 的 关系 。 例 如 在 线 商 店 可 以 使 用 这 种 方法 来 促销 





























重要 的 关联 〈 例 
出 所 有 可 以 考虑 
那些 经 常 与 其 他 





























商品 一 起 购买 的 商品 。 此 外 ， 预 测 方 法 允许 通过 建议 所 有 很 可 能 售 融 的 商 
程 ， 这 要 归功 于 其 他 项 目的 销售 增加 。 

在 这 一 点 上 ， 读 者 了 解 无 监督 学 习 的 实际 例子 是 有 帮助 的 。 不 需要 特 
但 你 最 好 具备 概率 论 的 基本 知识 。 
4. 无 监督 的 hello world! 






























































品 来 简化 供应 流 


别 的 先决 条 件 ， 


由 于 本 书 完全 致力 于 无 监督 算法 的 讲解 , 在 此 不 将 简单 的 聚 类 分 析 显 示 为 hello world! 





























异步 社区 好 好 好 你 最 棒 (13574065152) 专 享 请 尊重 版 权 








1.3 ”机 器 学 习 算法 的 类 型 “13 


示例 ， 而 是 假设 一 个 非常 基本 的 生成 模型 。 假 设 我 们 正在 监控 每 小 时 到 车 站 的 列车 数量 ， 
因为 我 们 需要 确定 车 站 所 需 的 管理 员 数 量 。 特 别 地 ， 要 求 每 列 列车 至 少 有 1 名 管理 员 ， 每 
当 管 理 员 数 量 不 足 时 ， 我 们 将 被 罚款 。 
此 外 ， 在 每 小 时 开始 时 发 送 一 个 组 更 容易 ， 而 不 是 逐个 控制 管理 员 。 由 于 问题 非常 简 
单 ， 我 们 也 知道 泊 松 分 布 是 一 个 好 的 分 布 ， 参 数 y 同样 也 是 平均 值 。 从 理论 上 讲 ， 我 们 知 
道 这 种 分 布 可 以 在 独立 的 主要 假设 下 有 效 地 模拟 在 固定 时 间 范 围 内 发 生 的 事件 的 随机 数 。 
在 一 般 情况 下 生成 模型 基于 参数 化 分 布 ( 例 如 神经 网 络 )， 并 且 不 对 其 系列 进行 具体 假设 。 
仅 在 某 些 特定 情况 下 (例如 高 斯 混合 )， 选 择 具有 特定 属性 的 分 布 是 合理 的 ， 并且 在 不 损失 
严谨 性 的 情况 下 ， 我 们 可 以 将 该 示例 视 为 此 类 方案 之 一 。 
泊 松 分 布 的 概率 质量 函数 为 : 
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天 
P(E = te’, keN 





此 分 布 描述 了 在 预定 义 的 间隔 内 观察 个 事件 的 概率 。 在 我 们 的 例子 中 ， 间 隔 始 终 是 
1 小 时 ， 我 们 希望 观测 10 多 趟 列车 ， 然 后 估计 概率 。 我 们 如 何 才能 获得 的 正确 数值 ? 

最 常见 的 策略 称 为 最 大 似 然 估 计 (Maximum Likelihood Estimation，MLE )。 该 策略 
通过 收集 一 组 观测 值 ， 然 后 找到 A 的 值 ， 该 值 使 分 布 生成 所 有 点 的 概率 最 大 化 。 

假设 我 们 已 经 收集 了 N 个 观测 值 〈 每 个 观测 值 是 一 小 时 内 到 达 的 列车 数量 )， 则 相对 
于 所 有 样本 的 4 的 似 然 度 是 在 使 用 以 下 公式 计算 的 概率 分 布下 所 有 样本 的 联合 概率 4 (为 
简单 起 见 ， 假 设 为 ID ): 



































































































































N 大 
克 (L 语 证) 三 (后 厂 AD = 
x i* 




















当 我 们 使 用 乘积 和 指数 时 ， 计 算 对 数 似 然 是 一 种 常见 的 规则 : 
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N Me Mk 
log L(W;k,k,,…, ky, )= log[ 8 三 > log 人 
1=1 区 Ei* 


i=] 






































一 有 旦 计算 出 对 数 似 然 ， 我 们 就 可 以 将 y 的 导数 设置 为 0， 以 便 找 到 最 佳 值 。 在 这 种 情 
况 下 ， 我 们 省 略 了 证 明 (直接 获得 ) 并 直接 得 出 4 的 最 大 似 然 估计 值 : 



































1 N 
Hopt 3 = Ave(k,) 











很 平和 运 的 是 最 大 似 然 估 计 值 只 是 到 达 时 间 的 平均 值 。 这 意味 着 ， 如 果 我 们 观察 到 N 个 
平均 值 为 4 的 值 ， 则 有 很 大 可 能 生成 它们 的 泊 松 分 布 ， 其 特征 系数 为 4。 因 此 ， 从 这 种 分 
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布 中 抽取 的 任何 其 他 样本 将 与 观察 到 的 数据 集 兼容 。 


我 们 现在 可 以 从 第 一 次 模拟 开始 。 假设 我 们 在 工作 日 的 下 午 收 集 了 25 个 观察 结果 ， 如 
下 所 示 : 


import numpy as np 

OBS = NDpvarray(l[7, Li, 9 9 By Tly 9 9 By Ty TL By 07 9 Lly 7 0 
9 0% 9 Tr By Br LO LB]) 

mu = np.mean (obs) 

print('mu = {}'.format (mu)) 

最 后 一 个 命令 的 输出 如 下 : 

mu = 9.12 


因此 ， 每 小 时 平均 到 达 9 趟 列车 。 初 始 分 布 的 直方 图 如 图 1-5 所 示 。 


030 


020 





4 6 8 10 12 14 16 
图 1-5 初始 分 布 的 直方 图 


要 计算 请 求 的 概率 ， 我 们 需要 使 用 累积 分 布 函数 CCumulative Distribution Function， 
CDF)， 它 在 SciPy 中 实现 〈 在 scipy.stats 包 中 )。 特 别 地 ， 由 于 我 们 感 兴趣 的 是 观察 到 的 列车 
数量 超过 固定 值 的 概率 ， 因 此 有 必要 使 用 与 1-CDF 相对 应 的 生存 函数 《Survival Function， 
SF)， 如 下 所 示 : 


from scipy.stats import poisson 


异步 社区 好 好 好 你 最 棒 (13574065152) 专 享 请 尊重 版 权 


print(" 
print(" 
print(" 
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( 
( 
( 
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oathiale 


Pl( 
Pl( 
Pl( 
Pl( 


more than 8 tr 
more than 9 tr 
more than 10 t 
more than 11 t 


ains) 


ains) 
rains) 


rains) 


上 述 代 码 段 的 输出 如 下 所 示 : 


正如 预期 的 那样 , 能 观测 10 多 趟 列车 的 概率 很 低 (30%), 派 10 名 管理 





than 8 trains) = 


than 9 trains) = 
than 10 trains) 
than 11 trains) 











1.3 机 器 学 习 算 法 的 类 型 15 


{}'.format (poisson.sf (8, mu) 


{}'.format (poisson.sf(9, mu) 


{}'.format (poisson.sf (10, 


m 


{}'.format (poisson.sf (11, m 


0.5600494497386543 
0.42839824517059516 
= 0.30833234660452563 
= 0.20878680161156604 


) 
) 
u 
u 


) ) 


) 
) 
) 
) ) ) 























但 是 ， 由 于 我 们 的 模型 是 自 适 应 的 ， 我 们 可 以 继续 收集 观测 值 〈 例 如 在 清晨 





9 .13 


new_obs = np.array([13, 14, 11, 10, 11, 13, 13, 

B77 L383 dO di, F273 D3 LO Qe ly 3 LE LT4 让 3:y 
obs = np.concatenate([obs, new _ obs]) 

mu = np.mean (obs) 


DELNE(, 




















4 的 新 值 如 下 所 示 : 


mu = 10.641509433962264 


mu = {}'.format (mu)) 





14]) 


14, 





青 展 








现在 平均 每 小 时 11 趟 列车 。 假 设 我 们 收集 了 足够 的 样本 (考虑 所 有 潜在 的 事故 )， 我 








们 可 以 重新 估计 概率 ， 如 下 所 示 : 











print (P(more than 8 tra 
print (P(more than 9 tra 
print (P(more than 10 tr 
print (P(more than 11 tr 
输出 如 下 

P (more than 8 trains) = 
P (more than 9 trains) = 
P (more than 10 trains) 
P (more than 11 trains) 


ins) = 
ins) = 
ains) = 


ains) = 





{}'.format (poisson.sf (8, mu) 


{}'.format (poisson.sf (9, mu) 


{}'.format (poisson.sf(10, 


iL 


{}'.format (poisson.sf(11, m 


0.734624391080037 
0.6193541369812121 
= 0.49668918740243756 
= 0.3780218948425254 
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使 用 新 数据 集 观测 超过 9 趟 列车 的 概率 约 为 62% (这 证 实 了 我 们 最 初 的 选择 ), 但 现在 观测 
超过 10 趟 列车 的 概率 约 为 50%。 由 于 我 们 不 想 承 担 支付 罚款 的 风险 (这 比 管理 员 的 成 本 高 )， 
因此 最 好 派 10 名 管理 员 。 为 了 得 到 进一步 的 确认 , 我 们 决定 从 分 布 中 抽取 2000 个 值 , 如 下 所 示 : 





















































syn = poisson.rvs (mu size=2000) 


相应 的 直方 图 如 图 1-6 所 示 。 











0 5 10 15 20 25 


图 1-6 从 最 终 泊 松 分 布 中 抽取 2000 个 值 的 直方 图 
































该 图 在 10 (表示 10 名 管理 员 ) 之 后 非常 接近 11 时 ) 达到 峰值 ， 然 后 从 厂 13 开始 
快速 衰减 ， 这 是 使 用 有 限 数 据 集 发 现 的 (比较 直方 图 的 形状 以 进一步 确认 )。 但 是 ， 在 这 种 
情况 下 , 我 们 正在 生成 无 法 存在 于 观察 集中 的 潜在 样本 。MLE 保证 了 概率 分 布 与 数据 一 致 ， 
并 且 新 样本 将 相应 地 进行 加 权 。 这 个 例子 非常 简单 ， 其 目的 只 是 展示 生成 模型 的 动态 性 。 

我 们 将 在 本 书 的 后 续 章 节 中 讨论 许多 更 复杂 的 模型 和 示例 。 许 多 算法 常见 的 一 个 重要 
技术 在 于 不 是 选择 预定 义 的 分 布 ( 这 意味 着 先 验 知识 )， 而 是 选择 灵活 的 参数 模型 (例如 神 
经 网 络 ) 来 找 出 最 优 分 布 。 只 有 基础 随机 过 程 存在 较 高 的 置信 度 时 ， 优 先 选 择 预定 义 〈 如 
本 例 所 示 ) 才 合 理 。 在 其 他 情况 下 ， 最 好 避免 任何 假设 ， 只 依赖 数据 ， 以 便 找 到 数据 生成 
过 程 中 的 最 适当 的 近似 值 。 


1.3.3 半 监 督学 习 算 法 


半 监 督 场景 可 以 被 视 为 标准 监督 场景 ， 它 利用 了 一 些 属于 无 监督 学 习 技术 的 特征 。 事 
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实 上 ， 当 4 


1.3 ”机 器 学 习 算法 的 类 型 


恨 容易 获得 大 的 未 标记 数据 集 ， 而 标签 成 本 又 非常 高 时 ， 就 会 出 现 一 个 非常 普遍 








的 间 题 。 因 此 ， 
距离 就 会 低 
布 ， 则 半 监 督 和 


但 有 必要 简要 介 


标 


















































预定 义 闵 值 。 妇 























第 一 个 称 








群体 。 我 们 可 以 























数 

并 且 重 复 该 过 程 

可 以 通过 有 限 的 
标签 传播 在 








只 标记 部 分 样本 3 
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将 标签 传播 到 所 有 未 标记 样本 ， 这 些 样本 与 标记 样本 的 























0 果 从 单 





























个 数据 生成 过 程 中 抽取 数据 集 并 




















绍 两 个 非常 重要 的 模型 。 





签 传播 。 


为 标签 传播 (Label Propagation )， 其 目 





















































通过 图 

















直至 


来 实现 该 
进行 加 权 。 通 过 壕 代 ， 所 有 标记 的 样本 将 
I 标签 停止 变化 。 该 系统 上 共有 最 终 稳定 点 ( 即 无 法 
和 欠 代 次 数 轻松 到 











此 








某 些 样本 可 以 

















可 能 拥有 大 量 客 
性 和 女性 
请 务必 记 住 ， 所 
是 当 特 征 向 量 的 


第 一 个 


ns 

































































展 到 未 标记 的 样 





与 仅 能 评估 未 标记 样本 的 标准 过 程 相 反 ， 半 监督 SVM 使 
于 相似 性 : 如 果 4 的 标签 为 
定义 的 阔 值 )， 贝 
子 集 ， 分 类 器 也 可 以 在 整个 数据 集 上 实现 高 精度 。 与 标签 传播 类 似 ， 这 








假设 始终 基 








重要 的 半 ! 
SVM) 的 ， 对 包含 未 标记 权 
而 是 传播 分 类 标准 。 换 名 话说， 我 们 希望 使 用 标记 数据 集 


sy 


民 据 相似 性 度量 进行 标记 的 情况 下 非常 有 月 
但 只 有 10% 的 人 透露 了 自己 的 1 











标记 的 样本 均匀 分 
法 可 以 实现 与 有 监督 算法 相当 的 精度 。 在 本 书 中 ， 我 们 不 讨论 这 些 算法 ， 








的 是 将 一 些 样本 的 标签 传播 到 较 大 的 
目标 ， 其 中 每 个 顶点 表示 样本 并 且 每 条 边 都 使 用 距离 函 









































达 该 点 。 











外 演变 的 配置 )， 算 法 


标签 值 的 一 小 部 分 发 送 给 它们 所 有 的 近邻 ， 








昌 。 例 如 在 线 商店 














生 别 。 如 果 特 行 














j 户 的 常见 行为 ， 则 可 以 使 用 标签 传播 算法 来 猜测 未 公开 信息 
有 分 配 都 基于 相似 样 





复杂 性 增加 时 ， 
































本 。 











本 的 数据 集 的 扩展 。 在 这 























具有 相同 标签 的 人 
也 可 能 会 产生 误导 。 















































向 量 足 够 丰富 以 表示 ! 
的 
月 设 。 在 许多 情况 下 都 是 如 此 ， 但 























客户 性 别 。 当 然 ， 








监督 算法 系列 是 基于 标准 支持 向 量 机 (Support Vector Machine， 
情况 下 ， 我 们 不 想 传 播 现 有 标签 ， 

















来 训练 分 类 











来 训练 分 类 器 ， 








并 将 分 类 规则 扩 









































1， 





它们 来 校正 分 离 超 平面 。 
而 未 标记 样本 B 的 4 (4,，B， <se (其 中 是 预 








1 可 以 合理 地 假设 B 的 标签 也 是 1。 通 过 这 种 方式 ， 即 使 仅 手动 标记 了 一 个 

















在 数据 集 的 结构 不 是 非常 复杂 时 ,特别 是 当 相似 怕 














' 类 型 的 模型 只 有 


























找到 合适 的 距离 











度量 非常 困难 
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1.3.4 强化 学 习 算 法 





似 反 馈 。 


强化 学 习 可 以 被 视 为 有 监督 的 学 习 场 景 ， 
更 正式 地 说 ， 强 化 学 习 的 特点 
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开阔 们 














假设 成 立时 《不 笠 的 是 ， 在 某 些 情 况 下 ， 
因此 许多 类 似 的 样本 确实 不 相似 ， 反 之 亦 然 ) 才 是 可 靠 的 。 








其 中 隐藏 教师 仅 在 模型 的 每 个 决策 后 提供 近 
代理 和 环境 之 间 的 持续 互动 。 前 者 负责 决策 〔 行 
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动 )， 最 终 增加 其 回报 ， 而 后 者 则 为 每 项 行动 提供 反馈 。 反 馈 通常 被 视 为 奖励 ， 其 价值 可 以 


是 积极 的 (行动 已 成 功 ) 或 消极 的 (行动 不 能 复 用 )。 当 代理 分 析 环 境 (状态 ) 的 不 同 配置 


时 ， 每 个 奖励 ， 



























































必须 被 视 为 绑 定 到 元 组 〈 行 动 ， 状 态 )。 因 此 ， 我 们 的 最 终 目 标 是 找到 一 种 方 





























针 《〈 建 议 在 每 种 状况 下 采取 最 佳 行动 的 一 种 策略 )， 使 预期 总 回报 最 大 化 。 





强化 学 习 

















的 一 个 非常 经 典 的 例子 是 学 习 如 何 玩 游戏 的 代理 。 在 一 个 事件 中 ， 代 理会 测 























试 所 有 过 到 状态 中 的 操作 并 收集 奖励 。 算 法 校正 策略 以 减少 非 积 极 行为 ( 即 奖励 为 正 的 行 











为 ) 的 可 能 性 ， 并 增加 在 事件 结束 时 可 获得 的 预期 总 奖励 。 
强化 学 习 有 许多 有 趣 的 应 用 ， 这 些 应 用 并 不 仅 限 于 游戏 。 例 如 推荐 系统 可 以 根据 用 户 

















































































































提供 的 二 进 制 反馈 《例如 拇指 向 上 或 向 下 ) 来 更 正 建议 。 强 化 学 习 和 有 监督 学 习 之 间 的 主 
要 区 别 在 于 环境 提供 的 信息 。 事 实 上 ， 在 有 监督 的 场景 中 ， 更 正 通常 与 其 成 比例 ， 而 在 强 














化 学 习 中 ， 必 须 分 析 一 系列 行动 和 未 来 的 奖励 。 因 此 ， 更 正 通常 基于 预期 奖励 的 估计 ， 并 
它们 的 影响 受 后 续 行 动 的 价值 影响 。 例 如 有 监督 模型 没有 内 存 ， 因 此 其 更 正 是 立竿见影 


























































































































的 ， 而 强化 学 习 代理 必须 考虑 一 个 事件 的 部 分 展开 ， 以 决定 一 个 操作 是 否 是 负 的 。 





























强化 学 习 是 机 器 学 习 的 一 个 有 趣 分 支 。 遗 憾 的 是 ， 这 个 主题 超出 了 本 书 的 范围 ， 因 此 














我 们 不 会 详细 讨论 它 〈 你 可 以 在 Hands-On Reinforcement Learning with Python 和 Mastering 














Machine Learn 


ing Algorithms 中 找到 更 多 细节 )。 


我 们 现在 可 以 简要 解释 一 下 为 什么 选择 Python 作为 探索 无 监督 学 习 的 主要 语言 。 


1.4 为 什么 用 Python 进行 数据 科学 和 机 器 学 习 


在 继续 进行 更 多 技术 讨论 之 前 , 我 认为 解释 一 下 选择 Python 作为 本 书 的 编程 语言 是 有 
意义 的 。 因 为 在 过 去 十 年 中 ， 数 据 科 学 和 机 器 学 习 领 域 的 研究 呈 指 数 级 增长 ， 诞 生 了 数 干 
篇 有 价值 的 论文 和 数 十 种 完整 的 工具 。 特 别 地 ， 由 于 Python 的 高 效 、 优 雅 和 紧凑 性 ， 已 被 













































































许多 研究 人 员 和 程序 员 选 中 ， 用 以 创建 一 个 免费 发 布 的 完整 科学 生态 系统 。 
如 今 ， 诸 如 scikit-learn、SciPy、NumPy、Matplotlib、pandas 等 许多 软件 包 代 表 了 数 百 


















































! 可 用 于 生产 系统 的 支柱 ， 并 且 它 们 的 使 用 量 还 在 不 断 增长 。 此 外 ， 复 杂 的 深度 学 习 应 用 
程序 (如 Theano、TensorFlow 和 PyTorch) 允许 每 个 Python 用 户 在 没有 任何 速度 限制 的 情 






















































































况 下 创建 和 训练 复杂 模型 。 事 实 上 ， 请 务必 注意 Python 不 再 是 脚本 语言 。 它 支持 许多 特定 
任务 (例如 Web 框架 和 图 形 )， 并 且 可 以 与 用 C 或 C++ 编写 的 本 机 代码 对 接 。 







































































出 于 这 些 原因 ，Python 几乎 是 任何 数据 科学 项 目的 最 佳 选 择 。 由 于 其 特性 ， 所 有 具有 不 












































同 背 




















背景 的 程序 员 都 可 以 在 短 时 间 内 轻松 学 会 并 有 效 地 使 用 它 。 还 有 一 些 其 他 可 用 的 免费 解决 
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方案 (例如 R、Java 或 Scala), 然而 在 
但 它 缺 少 构建 完整 应 用 程序 所 必需 的 支持 框架 。 
生态 系统 ， 但 Java 并 不 像 Python 那样 紧凑 且 易 于 使 用 ， 此 外 对 本 机 代码 的 支持 要 复 
杂 得 多 ， 并 且 大 多 数 库 完 全 依赖 于 JVM《 随 之 而 来 的 是 性 能 损失 )。Scala 因 其 功能 特性 
大 数据 执行 机 器 学 习 任 务 ) 在 大 数据 全 景 图 中 占据 了 重要 位 





境 的 库 


Apache Spark 等 框架 (可 | 


名 























二 用 R 的 情 






























































] 于 使 
































。 1 




















1.5 


FE， 列 举 特定 行 





特 行 


型 : 


K-means 和 K-Nearest Neighbors 以 及 最 习 


1.6 


的 概率 求 和 

















你 希望 将 : 
的 男生 和 50% 的 女生 。 你 怎么 解释 


Me 





里 的 可 能 性 ) ? 


士 
总 结 




















况 下 ， 
相反 ，Java 和 Scala 


是 ， 考 虑 到 所 有 的 优点 和 缺点 ，Python 仍然 是 最 佳 选择 ， 这 就 是 它 被 本 书 选 中 的 原 


1.6 问题 19 


虽然 R 完全 覆盖 了 统计 和 数学 函数 ， 

















有 完整 的 用 于 生产 环 


























和 























因 。 





在 本 章 中 ， 我 们 讨论 了 使 用 机 器 学 习 模 型 的 主要 原 


有 








为 背后 的 原因 ， 
我 们 还 探讨 了 有 监督 


预测 






































未 来 行为 } 
无 监督 、 半 监督 和 强化 学 习 之 间 的 差异 ， 重 点 讨论 了 前 两 个 模 





























对 




















因 ， 以 及 如 何 分 析 数 据 集 以 描述 其 




















进行 影响 。 


我 们 还 使 用 了 两 个 简单 的 例子 来 理解 有 监督 和 无 监督 的 方法 。 





wn 
绍 聚 类 


在 第 2 章 中 ,我 们 将 介 


问题 


1 督学 习 不 适用 时 ， 无 


的 
全 页 羊 本 数据 集 和 候选 数据 


定 独 立 相 
来 获得 似 然 性 。 正 确 吗 ? 





























2. 























3 












































4. 





民 据 骨 
5. 假设 我 们 有 





一 个 学 生 数 据 集 ， 












































6. 考虑 问题 5， 但 重复 实验 并 将 


























7. 你 已 经 对 一 家 网 店 的 顾客 进行 了 














步 社 区 好 好 好 你 最 棒 (13574065152) 专 享 


地 少 们 


大 本 xX 总 和 
监督 学 


丹 








办 二 大 
让 


习 是 最 

















了 > 
聚 类 。 


分 析 的 基本 概念 ， 重 点 讨论 一 些 非常 著名 的 
要 的 评估 指标 。 


Ph 种 假设 ， 可 能 性 可 以 通过 单一 概率 的 乘积 来 计生 
其 中 包含 一 些 未 知 的 数值 特征 例如 年 龄 、 
女 学 生 分 开 ， 因 此 你 决定 将 数据 集 分 为 两 组 。 不 坟 
这 个 结果 ? 


分 为 5 组 。 你 期 望 在 它们 中 找到 什么 〈 列 出 一 些 合 























法 ， 如 


见 的 蔡 代 方法 吗 ? 
首席 执行 官 要 求 你 找 出 决定 销售 趋势 为 负 的 因素 。 你 需要 执行 哪 种 分 析 ? 
成 过 程 〈 例 如 高 斯 分 布 )， 可 以 通过 对 所 有 样本 














? 








标记 等 )。 
两 个 聚 类 都 有 大 约 50% 








日 
J 契 ， 








给 定 一 


个 
忆 





泊 相 





本， 你 可 以 做 出 什么 样 的 预测 ? 





请 尊重 版 权 





在 本 章 中 ， 我 们 将 介绍 聚 类 分 析 的 基本 概念 ， 并 将 注意 力 外 
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时 加 加 ;加 肝 相 
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安 


2.1 





原则 以 及 可 用 于 评估 方法 性 能 的 最 重要 的 技术 上 。 





本 章 将 着 重 讨论 以 下 主题 。 





聚 类 和 距离 函数 简介 。 





K-means 和 开 -means++。 








评估 指标 。 








K- 近 邻 〈K-Nearest Neighbors，KNN )。 


向 量 量化 (Vector Quantization，VQ ) 。 


技术 要 求 


本 章 中 的 代码 需求 如 下 。 


Python 3.5+《〈 强 烈 推 荐 Anaconda 发 行 版 )。 
库 。 
m SciPy 0.19+。 





m NumPy 1.10+。 
m scikit-learn 0.20+。 


m pandas 0.22+。 
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Lv, 书 、 





看 版 权 


中 在 被 许多 
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mn Matplotlib 2.0+。 
m seaborn 0.9+。 
数据 集 可 以 通过 UCI 数据 集 获 得 ， 除 了 在 加 载 阶段 添加 列 名 外 ， 不 需要 任何 预 处 理 。 
示例 代码 可 在 本 书 配套 的 代码 包 中 找到 。 









































2.2 聚 类 介绍 








正如 我 们 在 第 1 章 中 所 解释 的 ， 聚 类 分 析 的 主要 目的 是 根据 相似 性 度量 或 邻近 性 标准 
对 数据 集 的 元 素 进行 分 组 。 在 本 章 的 前 半 部 分 中 ， 我 们 将 重点 关注 前 一 种 方法 ， 而 在 后 半 
部 分 和 第 3 章 中 ， 我 们 将 分 析 利 用 数据 集 的 其 他 几何 特征 的 更 通用 的 方法 。 

让 我 们 采用 数据 生成 过 程 puueCo) 并 从 中 抽取 N 个 样本 : 
= {0 XW}, 下 中 元 ~ Pua(x) HN e R™ 


假设 paGo) 的 概率 空间 可 以 分 割 成 《可 能 是 无 限 的 ) 包含 KK (K= 12,…) 个 区 域 的 配 
置 ， 因 此 pawlx; 月 表示 属于 聚 类 大 的 样本 的 概率 。 通 过 这 种 方式 我 们 声明 ， 当 确定 pauuCo) 
时 ， 每 个 可 能 的 聚 类 结构 就 都 已 经 存在 了 。 我 们 可 以 对 更 接近 pyaws(x) 的 聚 类 概率 分 布 做 出 
进一步 的 假设 〈 正 如 我 们 将 要 在 第 $ 章 中 看 到 的 )。 但 是 ， 当 我 们 尝试 将 概率 空间 (和 相应 
的 样本 ) 拆 分 为 内 聚 组 时 ， 我 们 可 以 假设 两 种 可 能 的 策略 。 
。 硬 聚 类 : 在 这 种 情况 下 , x, EX 的 每 个 样本 分 配给 群集 Ki, 并 且 KN K=@ (i# 站 )。 
我 们 将 要 讨论 的 大 多 数 算法 都 属于 这 一 类 。 在 这 种 情况 下 , 问题 可 以 表示 成 一 个 为 
每 个 输入 样本 分 配 一 个 聚 类 的 参数 化 函数 : 
k=c(x:0), Sk=0,1,2,.…,K 

。 软 聚 类 : 通常 被 细 分 为 概率 和 模糊 聚 类 ， 这 种 方法 确定 属于 预定 聚 类 的 每 个 样本 
Xp EX 的 概率 p(x)。 因此 ， 如 果 有 聚 类 天 ， 我 们 有 一 个 概率 9 量 p(x) 一 [pi1(%), p2(7), 9 
pxx)]， 其 中 pj(x) 表 示 分 配给 聚 类 i 的 概率 。 在 这 种 情况 下 ， 聚 类 不 是 脱节 的 ， 通 
常情 况 下 样本 将 属于 所 有 具有 等 效 概率 的 成 员 级 的 聚 类 〈 此 概念 是 模糊 聚 类 所 特 
有 的 )。 

为 达到 我 们 的 目的 ， 在 本 章 中 仅 假设 是 从 一 个 数据 生成 过 程 中 提取 的 ， 该 过 程 的 空 
间 (在 给 定 度量 函数 的 情况 下 ) 可 分 割 为 彼此 分 离 的 紧凑 区 域 。 事 实 上 ， 我 们 的 主要 目的 
是 找到 满足 最 大 内 聚 和 最 大 分 离 双 重 属 性 的 聚 类 天。 在 讨论 K-means 算法 时 ， 这 个 概念 将 
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更 加 清晰 。 然 而 ， 我 们 可 以 将 





知识 














空间 中 的 密度 ， 如 图 2-1 所 示 。 











2-1 








在 


样本 )， 
收集 它们 的 密度 。 











二 维 聚 


而 Neou() 是 在 以 每 个 聚 类 中 心 为 原点 的 最 大 半径 > 的 球体 外 的 样 
图 2-1 中 ， 在 考虑 样本 与 中 心 的 最 大 距 


个 球 捕获 。 然 而 ， 我 们 不 想 对 球 的 生长 施加 作 
因此 最 好 不 要 考虑 半径 ， 并 通过 相 


在 一 个 完美 的 场景 ! 


聚 类 想象 成 一 个 斑点 ， 其 密度 远 高 于 分 隔 两 个 或 多 个 斑点 的 
Cluster 2 
Cluster 1 
高 密度 区 域 
芯 》1 
N 
分 离 区 域 Cluster 3 


Nout(7) 
一 
N 





























类 结构 遵循 最 大 内 聚 和 最 大 分 离 的 原则 。N 表 示 属 于 聚 类 大 的 样本 数 ， 


本 数 


离 的 前 提 下 ， 我 们 假设 大 多 数 样本 将 被 其 中 一 
FE 何 限制 (也 就 是 说 ， 它 可 以 包含 任意 数 


里 
里 . 


的 























本 少 的 子 区 域 〈 整 个 空间 ) 来 评估 分 离 区 域 ， 并 




















， 聚 类 跨越 一 些 密度 为 万 的 子 



































区 域 ， 而 分 离 区 的 特征 是 密度 


d <<D。 关 于 几何 属性 的 讨论 可 能 变 得 非常 复杂 ， 并 且 在 许多 情况 下 ,， 它 是 非常 理论 化 的 。 














此 后 ， 我 们 只 考虑 














寺村 不 同 


了 类 


聚 类 的 最 近 点 之 间 的 昌 








E 离 。 如 果 该 值 远 小 于 样本 与 其 所 有 





取 尖 
聚 类 











从 











与 到 类 


域 。 相 反 ， 当 使 用 E 
聚 类 的 凸 性 。 妇 


和 肥大 


的 。 关 于 凸 罕 类 和 














遗憾 的 是 ， 由 了 
们 的 探索 中 ， 将 展示 这 一 局 限 性 以 及 


中 心 之 间 的 最 大 


I 果 Vx,x,eC， 并 























E 离 ， 我 们 可 以 确保 分 离 是 有 效 的 ， 
E 离 度量 〈 例 如 在 K-means : 


并 且 








代 















































了 > 
聚 类 


) 的 对 比 ， 如 图 





FE 四 〈 四 2-2 所 示 。 











容易 区 分 聚 类 和 分 离 区 








) 时 ， 我 们 需要 考虑 
届 于 和 x, 段 上 的 所 有 点 都 属于 C， 则 通用 集 C 是 





的 另 一 个 重要 因素 是 
冲 























距离 函 


E 




















他 方法 是 如 何 克 服 该 局 限 性 的 。 
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二 世人 





数 的 对 称 性 ， 诸 如 K-means 算法 是 无 法 管理 非 凸 聚 类 的 。 在 我 
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凸 聚 类 凹 聚 类 


图 2-2 凸 聚 类 ( 左 ) 和 四 聚 类 《〈 右 ) 示例 
距离 函数 


聚 类 的 一 般 定 义 通常 基于 相似 性 的 概念 ， 也 很 容易 使 用 其 相反 概念 ， 即 由 距离 函数 〈 差 
异 度量 ) 表示 。 最 常见 的 选择 是 欧 氏 距离 (Euclidean Distance)， 但 是 在 选择 它 之 前 ， 必 
须 考虑 其 特性 及 它 在 高 维 空间 中 的 行为 。 我 们 先 介 绍 一 下 闵可夫 斯 基 距 离 (Minkowski 
Distance)〉 作 为 欧 氏 距离 的 推广 。 如 果 样 本 x;E ”， 则 定义 如 下 : 










































































(@) (7) » 
ye CR = 
d,(X1,%)= DE 一 和 
癌 1 


当 p= 1 时， 我 们 得 到 曼哈顿 (或 城市 街区 〉 距离， 当 p=2 时 ， 对 应 标准 欧 氏 距离 。 
我 们 想 要 了 解 的 是 p 一 2 时 4 的 行为 。 假 设 我 们 在 一 个 二 维 空间 中 ， 并 且 有 一 个 中 心 点 为 
= (0,0) 的 聚 类 和 一 个 采样 点 x = (5,3)， 对 于 不 同 点 pp 的 距离 qd,(xo, 加 是 : 
di(x.,X)=8 
(Rj 
d(X,x) 5.075 
a (EE) O03 
dioo(X.,x) 5.0 

































































很 显然 地 (并 且 很 容易 证 明 )， 如 果 | x -x/| 是 最 大 的 分 量 绝 对 差 ， 那 么 当 p 一 时 ， 
dp(xo 2 一 | 刀 一 总 |。 这 意味 着 , 如 果 我 们 考虑 由 所 有 分 量 的 不 同 而 导致 的 相似 性 (或 差异 )， 
则 需要 为 p 选择 一 个 最 小 值 “ 例 如 p=1 或 2)。 另 一 方面 ， 如 果 两 个 样本 仅 根 据 分 量 之 间 的 
最 大 绝对 差 被 视 为 不 同 ,那么 p 取 较 高 的 值 才 合适 。 通 常 ， 这 种 选择 是 非常 依赖 上 下 文 的 ， 
并 且 不 易 推 广 。 出 于 我 们 的 目的 ， 通 常 只 考虑 欧式 距离 ， 这 在 大 多 数 情 况 下 是 合理 的 。 男 
外 ， 当 N 一 吕 时 选择 较 大 的 p 值 具有 重要 的 意义 。 先 从 一 个 例子 开始 吧 。 我 们 想 测 量 不 同 
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的 p 
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和 值 的 LV 向 量 〈 属 于 儿 * 且 所 有 分 量 等 于 1 的 向 量 ) 与 原点 之 间 的 距离 〈 使 用 对 














数 刻度 来 压缩 y 轴 )， 可 按 如 下 方式 完成 : 


import numpy as np 

from scipy.spatial.distance import cdist 
distances = np.zeros (shape=(8, 100)) 

for i in range(l1l, distances.shapel[l0] + 1): 


for j in range(l1l, distances.shapel[l1l] + 1): 
distances[i -1，]j -1] = np.log(cdist (np.zeros (shape=(1, j)), np. 


ones (shape=(1, j)), metric='minkowski', p=i)[0][0]) 


45 


35 让 


Minkowski distances (log-scale) 
a 


© 
a 


[= 
© 


距离 如 图 2-3 所 示 。 



































1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 7 31 86 91 9 101 
Dimensionality 


图 2-3 p 和 的 不 同 值 的 闵可夫 斯 基 距 离 ( 对 数 刻度 ) 


























第 一 个 结论 是 如 果 我 们 为 N 选择 一 个 值 ， 当 p 一 时 距离 收缩 并 达到 人 饱和， 这 是 闵可夫 斯 
































基 距 离 结构 的 正常 结果 ， 但 是 敏锐 的 读者 可 能 会 注意 到 男 一 个 因素 。 让 我 们 想象 一 下 将 IN 向 





了 ? 








量 的 一 个 分 量 设 置 为 0.0。 这 相当 于 从 N 维 超 立 方 体 的 顶点 移动 到 另 一 个 顶点。 距离 怎么 样 











我 们 很 容易 用 一 个 例子 来 证 明 , 当 p 一 时 , 两 个 距离 收敛 到 相同 的 值 。 尤其 是 Aggarwal、 
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Hinneburg 和 Keim (参见 On the Surprising Behavior of Distance Metrics in High Dimensional 


Space) 证 明了 重要 的 结果 。 








假设 我 们 有 一 个 p(x) 分 布 的 xiE(0, 1D? 的 二 进 制 样本 M。 如 果 我 们 使 用 Minkowski 度量 ， 
则 可 以 计算 从 p(x) 采样 到 的 两 个 点 和 原点 之 间 的 最 
来 说 , 这 个 距离 可 以 通过 分 析 计 算出 来 , 但 也 可 以 使 





























大 (Dax ) 和 最 小 CDain ) 距离 (一 般 
和 迭代 过 程 持续 采样 直到 Dax? 和 Dw? 





























停止 变化 为 止 )。 作 者 证 明了 以 下 不 等 式 是 成 立 的 : 





5 D? D?. 
C, lmE 一 2 
? dso% el 


ad? 2 


二 max 一 min |< (M -DC,, 其 中 





在 前 面 的 公式 中 , CG, 是 一 个 依赖 于 p 的 常数 。 当 p 一 co 时 , 在 边界 后 Cxd2 与 OU-TDCx2 


之 间 获 取 预 期 值 EDs2-Daia] 的 极限 。 当 疡 > 2、 
离 差 的 期 望 值 收 敛 到 0。 这 意味 着 ,与 样本 无 关 ; 
斯 基 距 离 来 区 分 两 个 样本 几乎 是 不 可 能 的 。 当 我 
告 我 们 在 4 >1 时 ， 选 择 大 的 p 值 。 当 4 >1 时 ， 
使 P=1 是 最 佳 选 择 )， 因 为 它 对 分 量 的 权重 























瑟 / 人 
页 和 












































d 一 co， 且 项 dg >0 时 ， 最 大 和 最 小 距 
当 维 数 足 够 高 时 并 且 忆 > 2 时 ， 用 闵可夫 





























门 发 现 距离 函数 的 相似 性 时 ， 这 一 定理 警 
欧 几 里 得 度量 的 常见 选择 也 非常 可 靠 ( 即 


























响 最 小 (可 以 假设 它们 具有 相同 的 权重 )， 
并 保证 在 高 维 空间 中 的 可 区 分 性 。 相 反 ， 在 高 维 空间 中 尸 之 2 时， 所 有 样本 距离 无 法 











区 分 ， 





最 大 分 量 保持 不 变 ， 而 其 他 所 有 样本 都 被 修改 〈 例 如 如 果 x=(5,0) 一 (5,q) 其 中 |a|<5)， 如 下 





例 所 示 : 


import numpy as np 


from scipy.spatial.distance import cdist 


distances = [] 

25007 0) 
d= cdist(np.array ([[0, 

'minkowski', p=15)[0] [0] 


distances.append (qd) 


for i in range(1， 


print('Avg (distances) {} .format (np 


print('Std(distances) {}"'.format (np 


输出 如 下 : 


5.0168687736484765 
0.042885311128215066 


Avg (distances) 
Std(distances) 














0]]), np.array([[5, 


float(i / 500)]]);: metric= 


.mean (Qistances) ) ) 
.Std (distances))) 
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因此 ,对 于 p=15, xE[0.002, 5.0) 的 所 有 样本 (5,x) 距 原点 的 距离 ， 其 平均 值 约 为 5.0， 
标准 差 约 为 0.04。 当 p 变 大 时 ，Avg(distances)= 5.0 并 且 Std(distances) = 0.04。 


在 这 一 点 的 基础 上 , 我 们 可 以 开始 讨论 最 常见 和 最 广泛 采用 的 聚 类 算法 之 一 : K-means。 












































2.3 -means 














K-means 是 最 大 分 离 和 最 大 内 聚 原则 的 最 简单 实现 。 假设 我 们 有 一 个 数据 集 XE 究 “”( 即 
M 个 N 维 样本 )， 并 且 要 分 成 玉 个 聚 类 和 一 组 天 质心 对 应 分 配给 每 个 聚 类 太 的 样本 均值 : 
MO = {10, 507O) 其 中 FoO eR” 
集合 M 和 质心 有 一 个 附加 索引 【作为 上 标 ) 指示 和 迭代 步 又。 从 最 初 的 猜测 MO 开始 ， 
K-means 试图 最 小 化 称 为 惯性 的 目标 函数 ( 即 分 配给 聚 类 K; 的 样本 与 其 质心 jy 之 间 的 总 平 
均 聚 类 内 距离 ): 
































S(t)= Sl -zo 


k= lxek, 


很 容易 理解 不 能 将 S00 视 为 绝对 度量 ， 国 为 其 值 受 样本 方差 的 影响 很 大 。 然而 
S(t1+1)<S(1)， 这 意味 着 质心 正在 接近 一 个 最 佳 位 置 ， 在 这 个 位 置 上 ， 分 配给 一 个 聚 类 的 点 与 相 
应 的 质心 有 着 最 小 可 能 距离 。 因 此 ， 迭 代 过 程 也 称 为 劳 埃 德 算 法 (Lloyd's Algorithm ) 通过 
给 MO 初始 化 随机 值 开始 。 下 一 步 是 给 xe 的 每 个 样本 分 配 其 质心 与 x; 距 离 最 小 的 聚 类 : 

cH;M™)= argminy d(x, 2) 
完成 所 有 分 配 后 ， 新 的 质心 将 重新 计算 作为 算术 平均 值 : 

mt = 

"= NN = op < 

重复 该 过 程 直 到 质心 停止 变化 〈 这 也 意味 着 序列 S(0)>S(1)>…> S(towa))。 读 者 应 该 能 江 
刻 理 解 最 初 的 猜测 对 计算 时 间 有 很 大 的 影响 。 如 MO 非常 接近 MM，, 通过 几 次 迭代 即 可 找 
到 最 佳 配置 。 相 反 ， 当 Mt 纯粹 是 随机 的 时 候 ， 无 效 的 初始 选择 的 概率 接近 1 (也 就 是 说 ， 
每 个 初始 的 统一 随机 选择 在 计算 复杂 性 方面 几乎 是 等 价 的 )。 














































































































































































































上 -means++ 





找到 最 佳 初始 配置 相当 于 最 小 化 惯性 ; 然而 ，Arthur 和 Vassilvitskii (在 K-mzeazs++: The 
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Advantages of Careful Seeding 和 Proceedings of the Fighteenth Annual ACM-SIAM Symposium 
on Discrete Algorithms 中 ) 提出 了 另 一 种 初始 化 方法 〈 称 为 K-means++)， 该 方法 通过 选择 
有 更 高 概率 接近 最 终 质 心 的 初始 质心 ， 从 而 显著 提高 了 收敛 速度 。 该 方法 完整 的 证 明 是 
相当 复杂 的 ， 可 以 在 上 述 的 参考 资料 中 找到 。 因 此 ， 我 们 直接 提供 最 终结 果 和 一 些 重要 的 
成 果 。 
让 我 们 来 考虑 函数 D(-)， 其 被 定义 为 : 
D(X,i)= mind(x, 4) viell,pl where pK 
D(*) 表 示 样 本 xEX 与 已 经 选 定 的 质心 之 间 的 最 短 距离 。 计 算 函 数 后 ， 就 可 以 确定 概率 
分 布 GQ): 
















































































D(x,i) 

DD 
第 一 质心 yu 是 从 均匀 分 布 中 取样 。 此 时 ， 可 以 为 所 有 xe 的 样本 计算 D()， 因 此 可 
以 计算 概率 分 布 G(x)。 很 坦率 地 说 ， 如 果 我 们 从 CoD) 中 采样 ， 在 稠密 区 域 中 选择 一 个 值 的 
概率 远大 于 均匀 采样 或 在 分 离 区 域 中 选择 质心 的 概率 。 因 此 ， 我 们 继续 从 G(x) 中 采样 2。 
E 复 该 过 程 直到 确定 所 有 的 居 质 心 。 当 然 ， 由 于 这 是 一 种 概率 方法 ， 我 们 无 法 保证 最 终 配 
置 是 最 优 的 。 然 而 ，K-means++ 是 具有 O(log K) 竞争 性 的 。 事 实 上 ， 如 果 5 是 5 在 理 
论 上 的 最 佳 值 ， 作 者 证 明了 以 下 不 等 式 是 成 立 的 : 

ELS]< 85,, (log K +2) 


当 $ 由 于 更 好 的 选择 而 减少 时 , 前 面 的 公式 将 为 预期 值 E15] 设 置 一 个 上 限 , 大 致 与 log K 
成 正比 。 例 如 对 于 K=10，E[S] 志 19.88。Soy; 而 对 于 K=3，E[S] 三 12.87。Soj。 这 一 结果 揭 
示 了 两 点 : 第 一 点 是 K-means++ 在 天 不 是 非常 大 时 表现 更 好 ;第 二 个 点 可 能 也 是 最 重要 的 
点 ， 就 是 单个 K-means++ 初 始 化 不 足以 获得 最 佳 配 置 。 因 此 ， 常 见 的 实现 (例如 scikit-learn ) 
是 执行 可 变数 量 的 初始 化 ， 并 选择 初始 惯性 最 小 的 初始 化 。 
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G(X) = 
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在 本 节 中 ,我 们 使 用 著名 的 威斯康星 州 乳腺 癌 数 据 集 (Breast Cancer Wisconsin dataset) 
进行 聚 类 分 析 。 最 初 数据 集 的 提出 是 为 了 训练 分 类 器 ; 然而， 它 对 于 非 平凡 的 聚 类 分 析 
非常 有 用 。 它 包含 由 32 个 属性 (包括 诊断 和 识别 号 ) 组 成 的 569 个 记录 。 所 有 的 属性 都 
严格 地 与 肿瘤 的 生物 学 和 形态 学 特性 相关 ， 但 我 们 的 目标 是 考虑 基本 事实 〈 和 良性 或 恶性 ) 
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第 2 章 聚 类 基础 知识 
和 数据 集 的 统计 特性 来 验证 一 般 假设 。 在 继续 之 前 ， 我 们 必须 澄清 一 些 要 点 。 数 据 集 是 
高 维 的 ， 并 且 聚 类 是 非 凸 的 《所 以 我 们 不 能 指望 一 个 完美 的 分 割 )。 此 外 ， 我 们 的 目标 不 
是 使 用 聚 类 算法 来 获得 分 类 器 的 结果 ; 因此 ， 必 须 只 将 基本 事实 作为 潜在 分 组 的 一 般 指 

































































以 考虑 。 这 个 例子 的 目的 是 展示 如 何 执行 一 个 简短 的 初步 分 析 ， 选 择 最 佳 的 聚 类 数 ， 


并 验证 最 终 的 结果 。 


的 文件 夹 中 。 第 一 步 是 加 载 数据 集 并 通过 pandas DataFrame 公开 的 函数 describe0 执 行 全 局 














下 载 后 (如 技术 要 求 部 分 所 述 )，CSYV 文件 必须 放 在 我 们 通常 将 其 命名 为 <data_folder> 











上 


























统计 分 析 ， 如 下 所 示 : 


import numpy as np 
import pandas as pd 


bc dataset path = '<data path>\wdbc.data' 


bc dataset columns = ['id','diagnosis', 'radius mean', 'texture mean', 
'perimeter mean', 
'area mean', 'smoothness mean', 'compactness mean', "concavity mean', 


"concave points mean', 'symmetry mean', 'fractal dimension mean', 








'radius se', 'texture se', 'perimeter se', 'area se', 'smoothness se', 
'compactness se', 'concavity se', 'concave points se', 'symmetry se', 
'fractal dimension se', 'radius worst', 'texture worst', 'perimeter worst', 
'area worst', 'smoothness worst', '‘'compactness worst', 'concavity worst', 


"concave points worst', 'symmetry worst', 'fractal dimension worst'] 


df = pd.read csv(bc dataset path, index col=0, 
names=bc dataset columns) .fillna(0.0) 
print (df.describe()) 























我 强烈 建议 使 用 Jupyter Notebook 〈 在 这 种 




















情况 下 ， 命 令 必 须 仅 有 df describe0)， 其 中 所 
































有 命令 都 产生 内 联 输出 。 此 处 仅 显 示 了 表格 输出 的 第 一 部 分 (包含 前 8 个 属性 )， 如 表 2-1 所 示 。 
表 2-1 数据 集 的 前 8 个 属性 的 统计 报告 
radius_ | texture ”|perimeter smoothness_ |compactness_|concavity_ SO 
area mean points 
mean mean mean mean mean mean ea 





count|569.000000|569.000000 |569.000000 |569.000000 |569.000000 |569.000000 1569.000000 |569.000000 





mean|14.127292 |19.289649 |91.969033 |654.889104 |0.096360 0.104341 0.088799 10.048919 





std |3.524049 |4.301036 |24.298981] |351.914129 |0.014064 0.052813 0.079720 10.038803 
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的 权重 ， 我 们 将 接受 它们 作为 上 下 文 相关 条 件 的 0 
现在 我 们 开始 初步 的 分 析 , 考虑 perimeter_ mean、area_ mean、 smoothness_mean、 concavity_ mean 
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续 表 
radius_ | texture ”|perimeter Ae nean smoothness_ |compactness_|concavity_ ut 
mean mean mean mean mean mean ei 
6.981000 |19.710000 |43.790000 |143.500000 |0.052630 0.019380 0.000000 |10.000000 
$s% |11.700000 |16.170000 |75.170000 |420.300000 |0.086370 0.064920 0.029560 |10.020310 
Ss0% |13.370000 |18.840000 |86.240000 |551.100000 |0.095870 0.092630 0.061540 |0.033500 
75% |15.780000 |21.800000 1104.100000 1782.700000 |0.105300 0.130400 0.130700 |10.074000 
28.110000 |39.280000 |188.500000 |2501.000000 |0.163400 0.345400 0.426800 10.201200 
当然 ， 即 使 我 们 将 注意 力 仅仅 关注 在 子 集 上 ， 我 也 建议 读者 检查 所 有 属性 的 值 。 特 别 
是 需要 观察 前 8 个 属性 存在 的 不 同比 例 。 标 准 差 范围 从 0.01 到 350， 这 意味 着 许多 向 量 可 
能 仅 由 于 一 个 或 两 个 属性 就 非常 相似 。 另 一 方面 ， 使 用 方差 缩放 来 规范 化 值 ， 将 使 所 有 属 
具有 相同 的 责任 〈 例 如 area_ mean 介 于 143.5 和 2501 之 间 ， 而 smoothness_mean 介 于 0.05 
和 0.16 之 间 。 强 迫 它们 具有 相同 的 差异 会 影 [ “Hs 向 ， 而 且 由 于 没有 任 
体 的 指示 ， 我 们 没有 被 授权 做 出 这 样 的 选择 )。 显 然 ， 一 些 属 性 在 聚 类 过 程 中 具有 更 高 



































和 symmetry_ mean， 如 图 2-4 所 示 。 
非 对 角 线 上 的 图 表示 所 有 其 他 属性 的 函数 ， 而 对 角 线 上 的 图 则 表示 每 个 属性 的 分 布 ， 
这 些 分 布 被 拆 分 为 两 个 部 分 〈 在 本 例 中 ， 这 就 是 诊断 )。 因 此 ， 第 二 个 非 对 角 线 图 (左上 和 角 ) 
perimeter mean 与 area_mean 的 函数 关系 图 , 依 此 类 推 。 快速 分 析 突 出 了 一 些 有 趣 的 元 素 。 
。 area mean 和 perimeter mean 有 明确 的 相关 性 ， 并 确定 明显 的 分 离 。 当 area_mean 
大 于 1000 时 ， 周 长 明显 增 大 ， 诊 断 由 良性 突然 转 为 恶性 。 因 此 ， 这 两 个 属性 是 最 
终结 果 的 决定 因素 ， 并 且 其 中 一 个 可 能 是 多 余 的 。 
。 其 他 绘图 (例如 perimeter_meam/area_mean 与 smoothness_mean，atrea_mean 与 


symmetry mean, concavity mean 与 smoothness mean, TT concavity mean 与 


symmetry_mean) 


的 几乎 所 有 值 (zx 加 
。 有 一 些 图 


几乎 所 有 因 变 量 的 诊 




















〈 例 














L 有 水 






































“间隔 (将 雪 
1 )， 都 有 一 个 阐 值 将 男 一 个 变量 
如 perimeter_mean/area_mean 与 concavity_mean/concavity_mean 与 
symmetry_mean) 显示 略微 负 的 倾斜 对 角 线 分 隔 。 这 意味 着 
会 断 值 都 保持 不 变 ， 而 另 一 方面 ， 














垂直 反 转 为 轴 )。 

















量 的 值 分 为 P 











这 意味 着 





， 对 于 


自 变 量 假设 











丙 组 〈 良 怕 














SI 


> 

















J 上 > 十 
i 当 


a 











色 好 好 好 你 最 棒 (13574065152) 专 享 请 尊 


自 变 量 

















和 恶性 )。 





越 来 越 小 时 ， 














当 自 变量 
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越 来 越 大 时 , 诊断 将 














30 第 2 章 聚 类 基础 知识 
按 比例 切换 到 相反 的 值 。 例如 对 于 小 的 perimeter mean 值 ，concavity mean 可 以 在 
不 影响 诊断 的 情况 下 达到 最 大 值 〈 良 性 )， 而 perimeter_mean>150 时 总 是 能 独立 于 


尿 








concavity mean 做 出 恶性 诊断 。 
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图 2-4 perimeter mean、 area mean、smoothness mean、concavity mean、symmetry_mean 








当然 ,我 们 不 能 轻易 地 从 拆 分 分 析 中 得 出 结论 (因为 需要 考虑 所 有 相互 作用 ), 但 是 此 
活动 有 助 于 为 每 个 聚 类 提供 语义 标签 。 此 时 ， 通 过 t+ 分 布 随机 近邻 能 入 〈t-Distributed 
Stochastic Neighbor Embedding，t-SNE) 在 二 维 平 面 上 转换 有 利于 可 视 化 数据 集 (无 非 结 
构 属性 ) (有关 更 多 详细 信息 ， 请 参考 Journal of Machine Learning Research 的 Visualizing 
Data using t-SNE)。 具 体 可 以 按照 以 下 步骤 进行 : 
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import pandas as pd 


from sklearn.manifold import TSNE 


cdf 


tsne 


data tsne 


df tsne 


dft 


威 斯 康 


-40 


-60 


该 图 是 高 度 非 线 性 的 (不 
平面 内 。 不 幸 的 是 ， 在 这 个 区 域 也 有 中 等 比例 的 良性 样本 ， 基 


于 y<0 的 


用 K=2 来 实现 完美 分 离 〈 在 这 种 情况 下 ， 很 难 到 


df.drop(['diagnosis'], axis=1) 





pd.conca 


四 
竺 





diagnosis 
M 

B 
area_mean 
00 
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perplexity=10, random state=1000) 





t([af, 


TSNE (n_ components=2, 


tsne.fit transform (cdf) 





pd.DataFrame (data tsne columns=['x', 
df tsne], axis=1) 





'y'], index=cdf.index) 


州 乳腺 癌 数 据 集 的 二 维 t-SNE 图 ， 如 图 2-5 所 示 。 
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图 2-5 威斯康星 州 乳腺 癌 数 据 集 的 二 维 t-SNE 图 


要 访 i 












































记 这 是 一 个 从 多 ”到 多“ 的 投影 )， 但 大 部 分 恶性 样本 位 





此 我 们 不 希望 使 
E 解 真实 的 几何 图 形 ， 但 t-SNE 保证 二 维 














分 布 与 原始 的 高 维 分 布 具有 最 小 的 Kullback-Leibler 散 度 )。 现 在 让 我 们 用 天 = 2 进行 初始 聚 


类 。 我 们 将 使 有 














月 n_ clusters = 2 和 max iter = 1000 创建 KMeans scikit-learn 类 的 实例 在任 


何 可 能 的 情况 下 ，random state 始终 设置 为 1000)。 
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> 
洋 
st 


为 默认 值 〈 使 用 10 次 尝试 的 K-means ++ 初 始 化 )， 如 下 所 示 : 


import pandas as pd 


六 小 今 


from sklearn.cluster import KMeans 


km = KMeans (n clusters=2, max iter=1000, random state=1000) 
Y pred = km.fit predict (cdf) 


df _ km = pd.DataFrame (Y pred, columns=['prediction'], index=cdf.index) 
kmdff = pd.concat ([dff, df km], axis=1) 


威斯康星 州 乳腺 癌 数 据 集 的 K-means 聚 类 (CK=2)， 如 图 2-6 所 示 。 
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图 2-6 威斯康星 州 乳腺 癌 数 据 集 的 K-means 聚 类 (K=2) 
毫 不 奇怪 ， 对 于 y<-20 结果 相当 准确 ， 但 是 算法 不 能 同时 包含 边界 点 (y 守 0) i 





















































六 率 


要 恶性 聚 类 中 。 这 主要 是 由 原始 集 的 非 凸 性 造成 的 , 用 K-means 来 解决 这 个 问题 非常 困难 。 
此 外 ,在 投影 中 ， 大 多 数 y 六 0 的 恶性 样本 与 良性 样本 混合 在 一 起 ， 因 此 基于 邻近 度 的 
方法 也 具有 较 高 的 误差 概率 。 正 确 分 离 这 些 样品 的 唯一 机 会 来 自 原始 分 布 。 事 实 上 ， 


属于 同一 类 别 的 点 可 以 被 男 ” 中 的 
























































球 捕获 ， 那 么 K-means 也 可 以 成 功 。 不幸 的 是 ， 在 这 种 情 


其 他 
如 果 





况 下 ， 混 合集 似乎 具有 很 强 的 内 聚 性 ， 因 此 我 们 不 能 期 望 在 没有 转换 的 情况 下 提高 性 能 。 然 


而 ， 











为 了 达到 我 们 的 目的 ， 这 个 结果 允许 我 们 应 用 主要 的 评估 指标 ， 然 后 从 K=2 移 至 








的 值 。 在 天 >2 的 情况 下 ， 我 们 将 分 析 菜 些 聚 类 ， 并 将 它们 的 结构 与 配对 图 进行 比较 。 
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2.5 评估 指标 











在 本 节 中 ， 我 们 将 分 析 一 些 常用 的 方法 ， 这 些 方法 可 用 于 评估 聚 类 算法 的 性 能 ， 并 有 
助 于 找到 最 佳 的 聚 类 数 。 


2.5.1 最 小 化 惯性 














K-means 及 其 类 似 算法 的 最 大 缺点 之 一 是 对 聚 类 数量 的 明确 要 求 。 有 时 ， 这 一 信息 是 
日 外 部 约束 《例如 在 乳腺 癌 的 例子 中 ， 只 有 两 种 可 能 的 诊断 ) 强加 的 , 但 在 许多 情况 下 ( 当 
需要 探索 性 分 析 时 )， 数 据 科 学 家 必须 检查 不 同 的 配置 并 评估 它们 。 评 估 K-means 性 能 并 选 
择 适 当 数 量 聚 类 的 最 简单 方法 是 基于 不 同 最 终 惯性 的 比较 。 













































































让 我 们 从 下 面 的 简单 示例 开始 ， 该 示例 基于 scikit-learn 的 函数 make_blobs() 生 成 的 12 
个 非常 紧凑 的 高 斯 斑点 : 

















from sklearn.datasets import make blobs 





X Y = make blobs(n samples=2000, n features=2, centers=12, 
cluster std=0.05, center box=[-5, 5],random state=100) 


这 些 斑点 如 图 2-7 所 示 。 
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图 2-7 数据 集 由 12 个 不 相交 的 二 维 斑点 组 成 
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现在 我 们 来 计算 聚 类 数量 KE [2, 20] 的 惯性 (在 一 个 训练 有 素 的 KMeans 模型 中 可 用 作 
实例 化 变量 inertia )， 如 下 所 示 : 



































from sklearn.cluster import KMeans 


inertias = [] 


for i in range(2, 21): 
km = KMeans (n clusters=i, max iter=1000, random state=1000) 
km.fit (XxX) 


inertias.append (km.inertia ) 








函数 关系 如 图 2-8 所 示 。 
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图 2-8 ”惯性 与 聚 类 数量 的 函数 关系 




















图 2-8 显示 了 一 种 常见 的 行为 。 当 聚 类 的 数目 非常 小 时 ， 密 度 成 比例 地 降低 ， 因 此 内 聚 
力 较 低 ， 惯 性 较 高 。 增 加 聚 类 的 数量 迫使 模型 创建 更 多 的 内 聚 群体 ， 惯 性 开始 突然 减少 。 
如 果 我 们 继续 这 个 过 程 至 M 关 玉 ， 将 观察 到 缓慢 的 逼近 与 配置 相对 应 的 值 ， 其 中 天 = 1M 
《每 个 样本 都 是 一 个 聚 类 )。 一 般 的 启发 式 规则 《在 没有 外 部 约束 时 ) 是 选择 对 应 于 将 高 变 
化 区 域 与 几乎 平坦 区 域 分 开 的 点 的 聚 类 数 。 这 样 ， 我 们 就 可 以 确保 所 有 聚 类 在 没有 内 部 碎 
片 的 情况 下 都 达到 了 最 大 的 内 聚 力 。 当 然 ， 在 这 种 情况 下 ， 如 果 我 们 选择 K=15， 其 中 9 
个 斑点 将 被 分 配 到 不 同 的 聚 类 ， 而 其 他 3 个 斑点 将 被 分 成 两 部 分 。 显 然 ， 当 我 们 分 割 一 个 
高 密度 区 域 时 ， 人 惯性 仍然 很 低 ， 但 最 大 分 离 原理 不 再 适用 。 


我 们 现在 可 以 用 KE[2, 50] 的 威斯康星 州 乳 腺 癣 数据 集 习 


























































































































tun 


复 该 试验 ， 如 下 所 示 : 
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from sklearn.cluster import KMeans 
inertias = [] 
for i in range(2, 51): 
km = KMeans (n clusters=i, max iter=1000, random state=1000) 


Km fit (cdf) 
inertias.append (km.inertia ) 


函数 关系 如 图 2-9 所 示 。 
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2-9 ”惯性 与 威斯康星 州 乳腺 癌 数 据 集聚 类 数量 的 关系 函数 























在 这 种 情况 下 ,基本 事实 建议 我 们 应 该 根据 诊断 结果 分 成 两 组 。 然而 ,该 图 显示 了 一 个 急 
剧 的 下 降 ， 结 束 于 天 一 8 并 继续 向 下 倾斜 直到 大 约 K 二 40。 在 初步 分 析 过 程 中 ， 我 们 可 以 发 现 
二 维 投影 是 由 许多 具有 相同 诊断 的 孤立 斑点 组 成 的 。 因 此 ， 我 们 可 以 决定 采用 例如 KK 二 8 并 分 
析 每 个 聚 类 对 应 的 特征 。 由 于 这 不 是 一 个 分 类 任务 ， 因 此 基本 事实 可 以 作为 主要 参考 ， 但 是 正 
确 的 探索 性 分 析 应 该 尝试 理解 子 结构 的 组 成 , 以 便 为 技术 人 员 (例如 医生 ) 提供 进一步 的 细节 。 


现在 让 我 们 在 威斯康星 州 乳 腺 癌 数 据 集 上 执行 一 个 具有 8 个 聚 类 的 Kmeans 聚 类 分 析 ， 
以 描述 两 个 样本 组 的 结构 ， 如 下 所 示 : 
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import pandas as pd 


from sklearn.cluster import KMeans 
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km = KMeans (n clusters=8, max iter=1000, random _ state=1000) 
Y pred = km.fit predict (cdf) 
df _ km = pd.DataFrame (Y pred, columns=['prediction'], index=cdf.index) 
kmdff = pd.concat ([dff, df km], axis=1) 
聚 类 结果 如 图 2-10 所 示 。 
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图 2-10 威斯康星 州 乳腺 癌 数 据 集 的 KK-means 聚 类 CK=8) 结果 











现在 我 们 来 考虑 位 于 图 底部 的 子 聚 类 (-25 <x<30 和 -60 <y<-40)， 如 下 所 示 : 


sdff 
-40.0)] 
print (sdff[['perimeter mean', 


dff[ (dffx > =25.0) & ‘(dff,x < 30;0) 把 (dff,y > =60.0) & (dff.y < 


'area mean', 'smoothness mean', 


'concavity mean', 'symmetry mean']] .describe()) 


恶性 聚 类 的 统计 描述 的 友好 打印 版 本 如 表 2-2 所 示 。 


























表 2-2 恶性 聚 类 的 统计 描述 
perimeter_mean area mean | smoothness _ mean concavity_mean symmetry_mean 
count | 58.000000 58.000000 58.000000 58.000000 58.000000 
mean | 129.822414 1199.527586 | 0.100231 0.176981 0.193281 
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续 表 
perimeter_mean area mean | smoothness _ mean concavity_mean symmetry_mean 
std 6.503630 98.030806 0.010427 0.063437 0.027702 
min | 110.000000 904.600000 | 0.080200 0.086900 0.142800 
25% | 125.675000 1138.000000 | 0.091568 0.134600 0.176925 
Ss0% | 130.000000 1210.500000 | 0.100200 0.161000 0.189750 
75% | 133.800000 1271.750000 | 0.107600 0.212650 0.209100 
max | 143.700000 1386.000000 | 0.128600 0.375400 0.290600 
































根据 基本 事实 ， 我 们 知道 所 有 这 些 样本 都 是 恶性 的 ， 但 我 们 可 以 尝试 找到 一 个 规律 。 
area_mean/perimeter_mean 约 为 9.23， 与 平均 值 相 比 ， 相 对 标准 差 很 小 。 这 意味 着 这 些 样本 
代表 了 很 窄 范围 内 的 扩展 肿瘤 。 而 且 ，concavity_mean 和 symmetry_mean 均 大 于 整体 值 。 
因此 (在 没有 科学 合理 分 析 的 假设 下 ),， 我 们 可 以 得 出 这 样 的 结论 : 分 配给 这 些 聚 类 的 样本 
代表 了 已 经 进入 晚期 的 非常 严重 的 肿瘤 。 


为 了 与 恨 性 样本 进行 比较 ， 现 在 让 我 们 考虑 由 x>-10 和 20<y<50 界定 的 区 域 ， 如 下 : 


sdff = "dffl(dffsx. > =1050).&. (dff;,Yy > 20:0) & (df fy S500) 


print (sdff[['perimeter mean', 'area mean', 'smoothness mean', 











































































































































































































'concavity mean', 'symmetry mean']] .describe()) 
良性 聚 类 的 统计 描述 如 表 2-3 所 示 。 
表 2-3 良性 聚 类 的 统计 描述 
perimeter _ mean area mean | smoothness mean concavity _ mean symmetry_mean 
count | 114.000000 114.000000 114.000000 114.000000 114.000000 
mean | 64.997719 318.138596 | 0.095768 0.044920 0.181869 
std 6.752474 62.522359 0.014881 0.058654 0.029075 
min | 43.790000 143.500000 | 0.052630 0.000000 0.106000 
25% | 60.437500 275.075000 | 0.085127 0.012688 0.164000 
S0% | 65.800000 321.600000 | 0.096720 0.028290 0.179550 
75% | 70.790000 373.075000 | 0.104275 0.056798 0.195175 
max | 75.460000 409.100000 | 0.163400 0.410800 0.274300 
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在 这 种 情况 下 ，area_mean/perimeter_mean 约 为 4.89， 但 是 area_mean 具有 较 大 的 标准 差 
(实际 上 ， 其 最 大 值 约 为 410)。concavity_mean 相对 于 恶性 聚 类 来 说 非常 小 〈 即 使 标准 差 大 致 
相同 )， 而 symmetry_mean 几乎 等 同 。 从 这 个 简短 的 分 析 中 ， 我 们 可 以 推断 出 symmetry_mean 
不 是 判别 特征 ， 而 当 area mean/perimeter mean 小 于 5$.42 〈 考 虑 最 大 值 ) 与 concavity mean 
小 于 或 等 于 0.04 时 可 以 保证 一 个 良性 的 结果 。 由 于 concavity mean 的 最 大 值 可 以 达到 非常 
大 (大 于 a 下), 因此 还 需要 考虑 其 他 特征 , 以 确定 其 值 是 否 应 被 视 为 警报 。 
然而 ， 我 们 可 以 得 出 这 样 的 结论 ， 即 属于 这 些 聚 类 的 所 有 样本 都 是 良性 的 ， 误 差 概率 可 以 
忽略 不 计 。 我 想 重复 一 下 ， 这 更 多 的 是 一 个 练习 ， 而 不 是 一 个 实际 的 分 析 。 在 这 种 情况 下 ， 
数据 科学 家 的 主要 任务 是 收集 支持 结论 的 上 下 文 信息 。 即 使 在 存在 基本 事实 的 情况 下 ， 这 
种 验证 过 程 也 始终 是 强制 性 的 ， 因 为 潜在 原因 的 复杂 性 可 能 导致 完全 错误 的 陈述 和 规则 。 


2.5.2 ”轮廓 分 数 


在 不 了 解 基本 事实 的 情况 下 ， 评 估 聚 3 
Score )。 它 提供 了 每 个 样本 索引 和 全 局 图 
为 了 计算 分 数 ， 我 们 需要 引入 两 个 辅助 度 
平均 聚 类 内 距离 : 
















































































































































































































































































算法 性 能 的 最 常用 方法 是 轮廓 分 数 Silhouette 
表示 ， 显 示 了 聚 类 的 内 部 一 至 性 和 分 离 水 平 。 
第 一 个 是 假设 |&| = n( 站 基数 的 样本 xiEK 的 
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GD)= DAG) VE ek, 





对 于 K-means， 假 设 距 离 为 欧 氏 距离 ， 没 有 具体 的 限制 。 但 是 ds) 必须 与 聚 类 过 程 中 
使 用 的 距离 函数 相同 。 
给 出 一 个 样本 x;EK;， 让 我 们 引入 第 二 个 辅助 度量 ， 将 最 近 的 聚 类 表示 为 Kc。 这样， 
门 还 可 以 定义 最 小 的 最 近 素 类 距离 (作为 平均 最 近 聚 类 距离 ): 
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ER 
b(t)= >.4(E,5) viek. 


通过 这 两 个 度量 ， 我 们 可 以 定义 EX 的 轮廓 分 数 : 
bp(%) —a(x) 
max(a(®), b(t) 


分 数 s(*)e(-1, 1)。 当 s(*) 一 -1， 这 意味 着 b(*)< 之 a(*)， 因 此 样本 x;Ek 比 分 配给 & 的 
其 他 样本 更 接近 最 近 的 聚 类 K。。 此 情况 表示 分 配 错误 。 相 反 ， 当 s(*) 一 1, 5(*)>> a(*) 时 ， 样 
本 忆 更 接近 它 的 近邻 (属于 同一 个 于 类 )， 而 不 是 分 配给 最 近 聚 类 的 任何 其 他 点 。 显然， 这 
是 最 佳 条 件 ， 也 是 微调 算法 时 采用 的 参考 。 然 而 ， 由 于 这 个 指标 不 是 全 局 的 ， 所 以 引入 轮 
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廊 图 是 很 有 帮助 的 ， 它 显示 了 每 个 样本 获得 的 分 数 ， 按 察 类 分 组 并 按 降 序 排序 。 


让 我 们 考虑 一 下 K= {2、4、6、8} 时 威斯康星 州 乳腺 癌 数 据 集 的 轮廓 图 (完整 代码 包 


含 在 存储 库 中 )， 如 图 2-11 所 示 。 
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图 2-11 威斯康星 州 乳腺 癌 数 据 集 的 轮 廊 图 

第 一 个 图 显示 的 是 K=2 的 自然 聚 类 。 第 一 个 轮廓 非常 锐利 ， 表 明 平均 聚 类 间距 离 有 很 大 
的 差异 。 此 外 , 一 个 聚 类 比 另 一 个 聚 类 有 更 多 的 分 配 〈 即 使 它 不 那么 锐利 )。 从 数据 集 描述 中 ， 
我 们 知道 这 两 个 类 是 不 平衡 的 (357 个 良性 对 212 个 恶性 )， 因 此 不 对 称 是 部 分 合理 的 。 然 而 ， 
一 般 来 说 ， 当 数据 集 平 衡 时 ， 一 个 好 的 轮廓 图 的 特征 是 均匀 的 聚 类 ， 其 圆 形 轮廓 应 接近 1.0。 
事实 上 ， 当 形状 类 似 于 长 雪茄 时 ， 这 意味 着 聚 类 内 距离 非常 接近 它们 的 平均 值 〈 高 内 聚 力 )》， 
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并 且 相 邻 聚 类 之 间 有 明显 的 分 离 。 当 K=2 时 我 们 有 合理 的 分 数 ， 因 为 第 一 个 聚 类 达到 0.6， 而 
第 二 个 的 峰值 大 约 为 0.8。 然 而， 在 后 者 中 ， 大 多 数 样本 的 特征 是 s(*) > 0.75， 在 前 一 个 样本 
中 ， 大 约 一 半 样 本 低 于 0.5。 这 一 分 析 表 明 ， 较 大 的 聚 类 更 为 均匀 ，K-means 更 容易 分 配 样本 
( 即 在 度量 方面 ，x;E Kz 的 方差 较 小 ， 在 高 维 空间 中 ， 代 表 & 的 球 比 代表 Ki 的 球 更 均匀 )。 





其 他 的 图 显示 了 类 似 的 场景 ， 











因为 已经 检测 到 非常 内 聚 的 聚 类 和 一 些 锐利 的 聚 类 。 这 


意味 着 宽度 差异 非常 一 致 。 然 而 ， 增 加 天 使 得 分 配 的 样本 数量 趋 于 相似 ， 所 以 我 们 得 到 了 
更 均匀 的 聚 类 。 一 个 非常 圆 〈 几 乎 是 矩形 ) 的 聚 类 存在 于 s(*) > 0.75， 确 认 了 数据 集 至 少 包 
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含 一 组 非常 内 聚 的 样本 ， 这 些 样 本 相对 于 分 配给 其 他 聚 类 的 任何 其 他 点 的 距离 非常 近 。 我 
们 知道 恶性 聚 类 《〈 即 使 其 基数 更 大 ) 更 紧 炭 ， 而 良性 聚 类 则 分 布 在 更 宽 的 子 空间 上 。 因 此 ， 
我 们 可 以 假设 所 有 天 ， 最 圆 的 聚 类 是 由 恶性 样本 组 成 的 ， 其 他 的 都 可 以 根据 它们 的 锐 度 来 
区 分 。 例 如 对 于 K=8， 第 三 个 聚 类 很 可 能 与 第 一 个 图 中 第 二 个 聚 类 的 中 心 部 分 相对 应 ， 而 
较 小 的 聚 类 包含 属于 良性 子 集 孤立 区 域 的 样本 。 


如 果 我 们 不 知道 基本 事实 ， 则 应 该 同时 考虑 K=2 和 K=8 (甚至 更 大 )。 事 实 上 ， 在 第 
一 种 情况 下 , 我 们 可 能 会 丢失 许多 细 粒 度 的 信息 , 但 我 们 正在 确定 一 个 强大 的 细 分 领域 ( 假 
设 由 于 问题 的 性 质 ， 一 个 聚 类 并 不 具有 很 强 的 内 聚 性 )。 在 第 二 种 情况 下 ， 当 天 >8 时 聚 类 
明显 较 小 ， 具 有 中 等 较 高 的 内 聚 性 ， 它 们 代表 了 有 具有 一 些 共 同 特征 的 子 集 。 正 如 我 们 在 2.4 
os 从 的 ， 最 终 的 选择 取决 于 许多 因素 ， 这 些 工具 只 能 提供 一 般 的 指示 。 此 外 ， 当 到 

是 非 凸 的 或 其 方差 在 所 有 特征 中 分 布 不 均匀 时 ，K-means 总 是 会 产生 次 优 性 能 ， 因 为 | 
此 产生 的 本 案 类 将 包含 大 的 空白 空间 。 如 果 没 有 特定 的 方向 ， 最 佳 聚 类 数 与 包含 均匀 (宽度 
大 致 相同 ) 的 圆 形 的 图 相关 联 。 如 果 对 于 任何 天 值 ， 数 据 集 轮 廓 保持 锐利 ， 则 意味 着 几何 
体 与 对 称 测量 不 完全 兼容 (例如 聚 类 拉 伸 很 大 )， 应 考虑 其 他 方法 。 


2.5.3 ”完整 性 分 数 


这 项 度量 (以 及 今后 讨论 的 所 有 其 他 度量 是 基于 对 基本 事实 的 了 解 。 在 引入 指标 之 
前 ， 定 义 一 些 公共 值 是 很 有 帮助 的 。 如 果 我 们 用 Xi 表示 包含 真正 赋值 的 集合 ， 用 Ys 表 
示 一 组 预测 集合 (包含 M 值 入 聚 类 )， 则 可 以 估算 以 下 概率 : 
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了 < 大 K Ea true 
Dp( true ) M 
n red (Kk) 
Pp(Y,oq > k K) = 











在 前 面 的 公式 中 ，mwered( 癌 表示 属于 聚 类 kEK 的 真实 /预测 的 样本 数 。 此 时 ， 我 们 可 
以 计生 Vie 和 也 ed 的 灶 o 
Mie (Kk) Hie (A) 
lla) De ol | 















































考虑 到 业 的 定义 ， 玉 9) 通过 均匀 分 布 最 大 化 ， 而 均匀 分 布 反 过 来 又 对 应 于 每 个 分 配 的 
最 大 不 确定 性 。 出 于 我 们 的 目的 ， 我 们 还 必须 引入 给 定 3joy 的 7we 的 条 件 焙 ( 表 示 已 知 另 
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一 个 分 布 的 不 确定 性 ) 
J 也 ez) = > > 2 ed 2 
H(Y pred | ) = 二 0 | | 
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函数 nli, 让 在 第 一 种 情况 下 ， 表示 分 配给 五 的 具有 真实 标签 ;的 样本 数 , 在 第 二 种 情况 
下 ， 表 示 分 配给 K; 的 具有 真实 标签 j 的 样本 数 。 
























































完整 性 分 数 定义 为 : 
_H (Yea | Yie) 
H (Ya) 
很 容易 理解 当 克 Yeg|Yiwe) 一 0 时，Yiwe 的 已 知 减少 了 预测 的 不 确定 性 ， 因 此 ，c 一 1。 这 
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相当 于 所 有 具有 相同 真实 标签 的 样本 都 被 分 配 到 同一 个 聚 类 。 相 反 ， 当 HYwa|Ywe)H(Yrea) 
时 ， 则 意味 着 基本 事实 不 会 提供 任何 减少 预测 不 确定 性 的 信息 ， 并 且 c 一 0。 

当然 ， 一 个 好 的 聚 类 的 特征 是 c 一 1。 在 威斯康星 州 乳腺 癌 数 据 集 的 案例 中 ， 使 用 
scikit-learn 的 函数 completeness_score()〔 也 适用 于 文本 标签 ) 和 K=2〔 唯 一 与 基本 事实 相 
关 的 配置 ) 计算 的 完整 性 分 数 如 下 : 































































































dd 
































import pandas as pd 


from sklearn.cluster import KMeans 


from sklearn.metrics import completeness score 


km = KMeans (n clusters=2, max iter=1000, random state=1000) 
Y pred = km.fit predict (cdf) 


df km = pd.DataFrame (Y pred, columns=['prediction'], index=cdf.index) 
kmdff = pd.concat ([dff, df km], axis=1) 


print('Completeness: {}'.format (completeness score (kmdff['diagnosis'], 
kmdff['prediction']))) 





代码 段 的 输出 如 下 : 


Completeness: 0.5168089972809706 








这 个 结果 证 实 了 当 玉 = 2 时 ，K-means 不 能 完全 分 离 内 聚 。 因 为 正如 我 们 所 看 到 的 ， 有 
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一 些 恶 性 样本 错误 地 分 配给 了 包含 绝 大 多 数 良 性 样本 的 聚 类 。 但 是 ， 由 于 c 不 是 非常 小 ， 
我 们 可 以 确 定 两 个 类 的 大 多 数 样本 都 已 分 配给 不 同 的 聚 类 。 请 读者 使 用 其 他 方法 (将 在 第 
3 章 中 讨论 ) 来 检验 该 值 ， 并 对 不 同 结果 作 简 要 说 明 。 

2.5.4” 同 质 性 分 数 

这 个 同 质 性 分 数 是 对 完整 性 分 数 的 补充 ， 它 基于 这 样 的 假设 : 聚 类 必须 只 包含 具有 相 
同 真 实 标签 的 样本 。 定 义 如 下 : 

_HQ, true | Yo ) 
H( ye) 

与 完整 性 分 数 类 似 ， 当 (Yiwel Yea) 忆 H(Ywwa) 时 ，3 se 因此 
在 聚 类 之 后 不 确定 性 不 会 降低 《例如 每 个 聚 类 包含 属于 所 有 类 的 样本 )， 并 *>0。 相 反 ， 
的 
几乎 只 包含 具有 相同 标签 的 样本 。 重 要 的 是 要 记 住 ， 仅 仅 用 这 个 分 数 评估 是 不 够 的 ， 因 为 
它 不 能 保证 一 个 聚 类 包含 所 有 具有 相同 真实 标签 的 x;EX 样本 。 这 就 是 同 质 性 分 数 总 是 和 
完整 性 分 数 一 起 评估 的 原因 。 

威斯康星 州 乳腺 癌 数 据 集 在 =2 时 ， 我 们 得 出 以 下 结论 : 

from sklearn.metrics import homogeneity _ score 

print('Homogeneity:{ } .format (homogeneity _ score (kmdff['diagnosis'],kmdff 

['prediction']))) 

相应 输出 如 下 : 

Homogeneity: 0.42229071246999117 

这 个 值 ( 特 别 是 K=2) 证 实 了 我 们 最 初 的 分 析 ， 至 少 有 一 个 聚 类 (具有 大 多 数 良性 样 
本 的 聚 类 ) 不 是 完全 同 质 的 ， 因 为 它 包含 属于 这 两 类 的 样本 。 i 
0, 我 们 可 以 确定 分 配 是 部 分 正确 的 。 考虑 到 有 hh 和 c 这 两 个 值 ， 我 们 可 以 推断 K-means 的 表 
现 不 是 很 好 《〈 可 能 是 因为 非 凸 性 )， 但 它 能 够 正确 地 分 离 最 近 聚 类 高 于 特定 阔 值 的 所 有 样本 。 


不 言 而 喻 ， 在 了 解 基 本 导 
































够 同时 满足 hh 和 c 一 1 的 算法 。 
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地 少 们 


使 用 V-measure 在 同 质 性 和 完整 性 之 间 进 行 权衡 
习 的 读者 应 该 知道 F-score (或 F-measure ) 的 概念 ， 





重 
































有 实 的 情况 下 ， 我 们 无 法 轻易 接受 K-means， 而 应 该 寻找 另 一 种 能 
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的 调和 平均 值 .在 给 出 基本 事实 的 情况 下 评估 聚 类 结果 时 , 我 们 也 可 以 采用 同样 的 权衡 方式 。 


事实 上 ， 在 许多 情况 下 ， 采 用 一 个 兼顾 同 质 性 和 完整 性 的 单一 度量 是 有 帮助 的 。 使 用 
V-measure (或 V-score) 可 以 很 容易 实现 这 样 的 结果 ， 该 定义 为 : 


















































y= 2 _ 2.: Homogeneity. Completeness 





1 1 Homogeneity + Completeness 
Homogeneity Completeness 


对 于 威斯康星 州 乳腺 癌 数 据 集 ， 使 用 V-measure 的 示例 如 下 : 





























from sklearn.metrics import V measure score 


print('V-Score: {}'.format(v measure score (kmdff['diagnosis'],kmdff 


['prediction']))) 





代码 段 的 输出 如 下 : 


V-Score: 0.46479332792160793 























正如 预期 的 那样 ,在 这 种 情况 下 V-Score 是 一 个 平均 度量 , 它 受到 较 低 同 质 性 的 负面 
影响 。 当 然 ， 这 个 指标 没有 提供 任何 不 同 的 信息 ， 因 此 它 只 对 在 单个 值 中 合成 完整 性 和 
同 质 性 有 帮助 。 通 过 一 些 简单 但 乏味 的 数学 操作 ， 可 以 证 明 V-measure 也 是 对 称 的 〈 即 
拟 蕊 ed = V(YwwelYwea))， 因 此 ， 给 出 了 两 个 独立 的 分 配 页 和 歹 ， 玖 妨 | 到 ) 是 它们 之 间 一 
致 性 的 度量 。 这 种 情况 并 不 十 分 常见 ， 因 为 其 他 措施 可 以 取得 更 好 的 效果 。 但 是 ， 我 们 可 
以 使 用 这 样 的 分 数 ， 例 如 检查 两 个 算法 〈 可 能 基于 不 同 的 策略 ) 是 否 倾向 于 生成 相同 的 分 
配 ， 或 者 它们 是 否 不 一 致 。 在 后 一 种 情况 下 ， 即 使 基本 事实 是 未 知 的 ， 数 据 科 学 家 也 可 以 
理解 一 种 策略 肯定 不 如 另 一 种 策略 有 效 ， 并 开始 探索 过 程 以 找 出 最 佳 的 聚 类 算法 。 


2.5.5 ”调整 后 的 相互 信息 分 数 


这 一 分 数 的 主要 目标 是 在 不 考虑 排列 的 情况 下 评估 又 和 了 wy 之 间 的 一 致 性 水 平 。 这 
样 一 个 目标 可 以 用 相互 信息 (Mutual Information，MI) 的 信息 论 概 念 来 衡量 。 在 我 们 的 
例子 中 ， 它 被 定义 为 : 


true?* pred | 
Ei M Me (©) Med (7) 


























































































































































































































这 个 函数 与 前 面 定 义 的 相同 。 当 M10、n(i, 让 nwwe(ijnpwea( 访 时 ， 其 项 分 别 与 p(i, 站 和 
Puue(i)jpprea( 访 成 正比 。 因 此 ， 这 个 条 件 等 于 说 Zs。 和 Yos 在 统计 上 是 独立 的 ， 缺 乏 共 享 信 
































异步 社区 好 好 好 你 最 棒 (13574065152) 专 享 请 尊重 版 权 


44 第 2 章 聚 类 基础 知识 





中 。 男 一 方面 ， 通 过 一 些 简 单 的 操作 ， 我 们 可 以 将 MI 重 写 为 : 
MI(Y,,,; Ya) = 一 已 (也 | Ye) ry H (Ya ) 








因此 ， 若 克 Yyea|Yiwe) 三 H(Yren)， 当 对 基本 事实 的 了 解 减少 了 oq 的 不 确定 性 时 ， 将 
导致 也 有 ol 也 oo 一 0 以 及 MI 最 大 化 。 出 于 我 们 的 目的 , 我 们 最 好 考虑 一 个 标准 化 的 版 本 ( 界 
定 在 0 和 1 之 间 )， 也 可 以 根据 概率 调整 《也 就 是 说 ， 考 虑 到 一 个 真正 的 任务 可 能 是 有 一 定 
的 概率 的 )。 这 个 调整 后 的 相互 信息 ‘(Adjusted Mutual Information，AMI) 分 数 的 完整 推 
导 是 非 同 寻常 的 ， 并 且 超出 了 本 书 的 范围 ， 其 定义 如 下 : 














































































































MI(Y,,,; Ya ) E> ELMI(Y, ， J )] 


true? 


AMI(Y,,, ) 也 ) 三 
mean(H(Y,, )， H (Yea )) EL[MI(Y,,,; Ya )] 














此 值 在 完全 没有 约定 的 情况 下 等 于 0， 当 Ye 和 Yoa 完 全 一 致 时 在 存在 排列 的 情况 
下 也 是 如 此 ) 等 于 1。 威斯康星 州 乳腺 癌 数 据 集 在 玉 = 2 时， 我们 得 出 以 下 结论 : 




















from sklearn.metrics import adjusted mutual info score 


print('Adj. Mutual info: 
{} .format (adjusted mutual info _ score (kmdff['diagnosis'],kmdff['prediction']))) 





俞 出 如 下 : 


Adj. Mutual info: 0.42151741598216214 

































































这 项 约定 是 适度 的 并 与 其 他 度量 兼容 。 假设 存在 排列 和 分 配偶 发 的 可 能 性 , 了 ve 和 Yvon 
共享 中 等 级 别 的 信息 。 因 为 正如 我 们 所 讨论 的 ，K-means 能 够 正确 分 配 重 装 概 率 忽 略 的 所 
有 样本 ， 而 它 倾向 于 考虑 良性 在 两 个 聚 类 边界 上 有 许多 恶性 样本 〈 相 反 ， 它 不 会 对 良性 样 
本 进行 错误 的 分 配 )。 在 没有 任何 进一步 的 指示 下 ， 该 指数 还 建议 检验 其 他 可 以 管理 非 凸 聚 
类 的 聚 类 算法 ， 因 为 缺乏 共享 信息 主要 是 由 于 无 法 使 用 标准 球 〈 尤 其 是 在 重 登 更 为 显著 的 
子 空 间 中 ) 捕获 复杂 的 几何 结构 。 


2.5.6 ”调整 后 的 兰 德 分 数 
调整 后 的 兰 德 分 数 是 真实 标签 分 布 和 预测 标签 分 布 之 间 差 异 的 度量 。 为 了 计算 它 ， 有 
必要 按 如 下 方式 定义 数量 。 
。 a: 表示 具有 相同 真实 标签 0 y) : 乌 = 攻 并 分 配给 同一 个 聚 类 天 的 样本 对 Ce x) 的 数目 。 


e 10: 表示 具有 不 同 真实 标签 @y yp)) : yi yy》 分 配给 不 同 聚 类 K. 和 Ks， 且 cd 的 样 
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本 对 Gx; x) 的 数目 。 
如 果 有 M 个 值 ， 则 使 用 k=2 的 二 项 式 系数 获得 二 进 制 组 合 的 总 数 ， 因 此 差异 的 初始 




































































R_2+D 
M 
加 
显然 ， 这 个 值 可 以 由 a 或 5 来 主导 。 在 这 两 种 情况 下 ， 较 高 的 分 数 表明 分 配 符合 基本 
































事实 。 但 是 ，a 和 2 都 可 能 会 因 偶 发 的 分 配 而 产生 偏差 。 这 就 是 为 什么 要 引入 调整 后 的 兰 
德 分 数 。 更 新 后 的 公式 为 : 














mh 











_ RR-E[A] 

a max(R)—R 
该 值 在 -1 和 1 之 间 。 一 方面 ， 当 Ry 一 -1 时 ，a 和 2 都 很 小 且 绝 大 多 数 的 分 配 都 是 
误 的。 男 一 方面 ， 当 Ry 一 1 时 ， 预 测 的 分 布 非常 接近 真实 情况 。 对 于 威斯康星 州 乳腺 癌 数 
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from sklearn.metrics import adjusted rand score 


print('Adj. Rand score: {}'.format (adjusted rangd score (kmdff['diagnosis'], 
kmdff['prediction']))) 





代码 段 的 输出 如 下 : 


Adj. Rand index: 0.49142453622455523 























由 于 该 值 大 于 -1《〈 负 的 极 值 )， 所 以 它 优 于 其 他 指标 。 它 证 实 了 分 布 之 间 的 差异 不 是 和 
明显 ， 这 主要 是 样本 的 子 集 有 限 所 致 。 该 分 数 是 非常 可 靠 的 ， 并 且 可 以 作为 评价 聚 类 算法 
性 能 的 单一 指标 。 接 近 0.5 的 分 值 证 实 了 K-means 不 太 可 能 是 最 优 解 ， 但 数据 集 的 几何 结 
构 几 乎 可 以 完全 被 对 称 球 捕获 ， 除 了 一 些 具有 高 重合 概率 的 非 刷 区 域 。 


2.5.7 ” 列 联 矩阵 


列 联 矩阵 C 是 一 个 在 已 知 真实 情况 时 显示 案 类 算法 性 能 的 非常 简单 且 强 大 的 工具 。 如 
果 有 m 个 类 ，C,& 狠 ”” 且 每 个 元 素 Ci, 站 表示 具有 已 分 配给 聚 类 j 的 样本 及 we = 的 数量 。 
因此 , 一 个 完美 的 列 联 算 阵 是 对 角 的 , 而 所 有 其 他 单元 格 中 有 元 素 存在 时 ， 则 表示 到 类 错误 。 


在 我 们 的 案例 中 ， 可 以 得 到 以 下 信息 : 
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from sklearn.metrics.cluster import contingency matrix 


cm = contingency matrix(kmdff['diagnosis'] .apply(lambda x: 0 if x == 
else 1), kmdff['prediction']) 










































































代码 段 的 输出 可 以 可 视 化 为 一 个 热 图 ( 变 300 
量 cm 是 一 个 2 x 2 的 矩阵 )， 如 图 2-12 所 示 。 i 
这 一 结果 表明 ， 几 乎 所 有 良性 样本 都 已 被 本 
正确 聚 类 ， 而 中 等 比例 的 恶性 样本 被 错误 地 分 
配 到 第 一 个 聚 类 。 我 们 已 经 确认 使 用 了 其 他 指 120 
标 ， 但 与 分 类 任务 中 的 混淆 矩阵 类 似 ， 列 联 矩 
阵 允 许 立 即 可 视 化 最 难 分 离 的 类 ， 来 帮助 数据 


科学 家 寻找 更 有 效 的 解决 方案 。 


2.6 ” K- 近 邻 





K- 近 邻 是 属于 基于 实例 学 习 类 别 的 一 种 方法 。 在 这 种 情况 下 ， 没 有 参数 化 的 模型 ， 而 
是 重新 排列 样本 以 加 速 特定 的 查询 。 在 最 简单 的 情况 下 (也 被 称 为 暴力 搜索 )， 假 设 我 们 有 
一 个 包含 M 个 样本 xE 多 的 数据 集 X。 给 定 距离 函数 ds wj)， 可 以 定义 测试 样本 x 的 半 











径 邻 域 为 : 











图 2-12 a 形 表示 












































vz) = :dnt) < R} 





集合 vGo) 是 以 xi 为 中 心 的 球 ， 包 含 了 距离 小 于 或 等 于 R 的 所 有 样本 。 它 可 以 只 计算 前 














个 最 近邻 域 ， 即 更 接近 x; (通常 ， 此 集合 是 vx) 的 子 集 , 但 是 非常 大 时 也 会 发 生 相 反 的 























情况 ) 的 样本 k。 这 个 过 程 很 简单 ， 但 遗憾 的 是 ， 从 计算 的 角度 来 看 太 昂贵 了 。 实 际 上 ， 

















对 于 每 次 查询 ， 都 需 








要 计算 MM 的 V 维 距离 ( 即 假设 每 次 距离 计算 需要 NN 次 操作 ， 则 计算 




















复杂 程度 是 O(NWM?))， 这 一 条 件 使 得 暴力 搜索 受到 维 数 的 灾难 性 影响 。 例 如 使 用 N=2 和 
M = 1000， 复 杂 度 是 O(2x10), 但 使 用 N= 1000 和 M= 10000 时 ， 它 变 成 了 O(101)。 例 如 











如 果 每 个 操作 需要 1 








纳 秒 ， 查 询 将 需要 100 秒 ， 这 在 许多 实际 情况 下 超出 了 可 容忍 限度 。 























此 外 ， 对 于 64 位 浮 点 值 ， 每 次 计算 的 成 对 距离 矩阵 需要 约 764 MB， 考 虑 到 任务 的 性 质 ， 
这 可 能 也 是 一 个 过 度 的 请 求 。 




















出 于 这 些 原 因 ，KNN 仅 在 M 非常 小 ， 且 在 所 有 其 他 情况 都 依赖 于 稍微 复杂 的 结构 时 
才 使 用 暴力 搜索 来 具体 实现 。 第 一 种 蔡 代 方法 是 基于 kd-trees 数据 结构 〈 一 种 二 又 树 对 多 
维 数据 集 的 自然 扩展 )。 
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一 个 具有 三 维 向 量 的 kd-tree 示例 ， 如 图 2-13 所 示 。 
















































































(8, 4, 3) 
| 

(5, 3, 2) (9, 2 2) 广 第 一 特征 

| 
(3, 0, 1) (9, 5, 1) (0, 1, 5) (6, 8, 4) > 第 二 特征 

| [L 
(1, 1, 9) (9, 4, 0) ~ 第 三 特征 

图 2-13 有 三 维 向 量 的 kd-tree 示例 


























kd-tree 的 构造 非常 简单 。 给 定 根 样本 (a1, a;,…, aJ， 第 一 个 拆 分 操作 考虑 第 一 特征 ， 使 
左 分 支 包 含 (bi1 < ql,…) 以 及 右 分 支 包含 (cl > al， …)。 该 过 程 继续 执行 第 二 特征 、 第 三 
特征 等 ， 依 此 类 推 ， 直 到 第 一 特征 到 达 叶 节点 为 止 (分 配给 叶子 的 样本 数 是 一 个 要 调整 的 超 
参数 。 在 scikit-learn 中 参数 称 为 leaf size， 默 认 值 为 30 个 样本 )。 

当 维 数 N 不 是 非常 大 时 ， 计 算 复杂 度 变 成 O(N log M)， 这 比 暴 力 搜 索要 好 得 多 。 例 如 
使 用 N= 1000 和 M= 10000， 计 算 复杂 度 变 成 0(4000) < 0(101)。 不 幸 的 是 ， 当 NW 很 大 时 ， 
kd-tree 查询 将 变 为 OCWWM)。 因 此 ， 考 虑 到 前 面 的 例子 ， 复 杂 度 为 0(10”)， 比 暴力 搜索 要 好 
些 ， 但 有 时 对 实时 查询 来 说 仍然 太 昂贵 。 

KNN 中 常用 的 第 二 种 数据 结构 是 ball-tree。 在 这 种 情况 下 ， 根 节点 由 Ro-ball 表示 ， 精 
确定 义 为 样本 的 邻 域 : 

Pr ( 二 )= 全 :4 二 元) 入 有 


选择 第 一 个 球 以 捕获 所 有 样本 。 此 时 ， 其 
他 较 小 的 球 被 钥 入 Pr, 中 , 确保 每 个 样本 始终 局 
于 一 个 球 。 一 个 简单 的 ball-tree 示例 , 如 图 2-14 





































































































= Group of samples 








1 六 








eu 















































所 示 。 
因为 每 个 球 都 是 由 它 的 中 心 oj 决定 的 , 对 
测试 样本 x; 的 查询 需要 计算 距离 dG。 cj)。 所 
以 , 我 们 从 底部 (最 小 球 的 位 置 ) 开始 ， 执 行 
完整 的 扫描 。 如 果 没 有 一 个 球 包含 样本 ， 则 会 图 2-14 简单 的 balLtree 示例 
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增加 级 别 ， 直 到 到 达 根 节点 为 止 (请 记 住 ， 样本 可 以 属于 单个 球 )。 
说 ， 在 给 定 中 心 和 半径 的 情况 下 ， 可 以 通过 单个 距离 计算 来 检查 样本 的 素 
复杂 度 现在 总 是 O(N log M)。 一 旦 确定 了 正确 的 球 ， 样 本 x; 的 邻 











由 于 球 的 特性 〈 也 就 是 
属 关系 )， 计 算 的 
域 需要 计算 有 限 数量 的 成 








对 距离 〈 该 值 小 于 叶子 大 小 ， 因 此 与 数据 集 的 维 数 相 比 ， 通 常 可 以 忽略 不 计 )。 


当然 ， 这 些 结构 是 在 训练 阶段 构建 的 , 在 生产 阶段 不 进行 修改 。 这 意味 着 我 们 要 仔细 选择 
最 小 半径 或 分 配给 叶 节 点 的 样本 数 。 事 实 上 ， 由 于 查询 通常 需要 多 个 邻 域 此 只 有 当 大 < |vCo| 
































时 才能 达到 最 优 。 换 名 话说， 我们 希望 在 同一 个 包含 x; 的 子 















































结构 中 找到 所 有 的 邻 域 。 每 当 





k> Co 时 ， 算 法 还 必须 检查 相 邻 结构 并 合并 结果 。 当 然 ， ee 《与 样本 MX 











的 总 数 相 比 这 些 树 的 优点 就 消失 了 ， 因 为 为 了 响应 查询 ， 





要 计算 太 多 的 成 对 距离 。 我 


























全 








们 必须 考虑 到 软件 的 生产 用 途 来 选择 正确 的 叶子 大 小 。 
例如 如 果 推荐 系统 需要 一 个 100 个 邻 域 的 初始 查询 以 及 












































域 的 后 续 查 询 ， 那 么 等 于 10 的 叶子 大 小 将 优化 改善 阶段 ， 但 对 第 

















一 些 (例如 5 个 ) 具有 10 个 邻 
个 查询 有 负面 影响 。 相 








反 ， 选 择 一 个 等 于 100 的 叶子 大 小 将 减 慢 这 10 个 邻 域 查询 的 速度 。 权 衡 一 下 可 能 25 个 邻 














域 适合 些 , 可 以 减少 第 一 个 查询 的 负担 , 但 对 改善 查询 的 成 对 昌 


Nl 






































E 离 的 计算 有 一 定 的 负面 影响 。 





我 们 现在 可 以 基于 Olivetti 面部 数据 集 (由 scikit-learm 直接 提供 ) 分 析 一 个 简短 的 例子 。 





























它 由 400 幅 64 像素 x64 像素 的 代表 不 同人 物 肖像 的 灰 度 图 像 
如 下 所 示 : 














组 成 。 


from sklearn.datasets import fetch olivetti faces 


faces = fetch olivetti faces () 
xX = faces['data'] 








变量 X 包含 数据 集 的 展 平 版 本 〈400 个 已 在 0 和 1 之 间 # 





我 们 可 以 训练 NearestNeighbor 模型 ， 假 设 默认 查询 有 10 个 样 





见 范 化 的 4096 维 























让 我 们 先 加 载 数据 集 





~ 


实例 )。 此 时 ， 


本 (参数 n_neighbors) 以 及 


半径 等 于 20〈 人 参数 radius )。 我 们 保持 默认 的 leaf size (30) 并 显 式 设 置 Minkowski 度量 为 p=2 


















































现在 可 以 创建 一 个 NearestNeighbors 实例 并 继续 训练 模型 : 





from sklearn.neighbors import NearestNeighbors 


( 欧 氏 距离 )。 该 算法 基于 一 个 ball-tree， 但 我 建议 读者 测试 不 同 的 度量 








量 以 及 kd-tree。 我 们 


knn = NearestNeighbors(n neighbors=10, metric='minkowski', p=2, 


radius=20.0, algorithnm='ball tree') 
knn.fit (x) 











训练 好 模型 后 ， 使 用 噪声 测试 面部 查找 10 个 最 近邻 域 ， 























如 下 所 示 ; 
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import numpy as np 


生生 


20 


test face = X[i] + np.random.normal (0.0, 0.1, size=(X[0].shape[0])) 


噪声 


我 们 
邻 域 数 量 





测试 面部 的 绘制 如 图 2-15 所 示 。 




















图 2-15 ”噪声 测试 务 





部 


可 以 使 用 仅 提 供 测试 样本 的 方法 kneighbors0 来 执行 具有 默认 邻 域 数 的 查询 (如 果 
不 同 ， 则 必须 调用 函数 并 提供 参数 n_neighbors )。 如 果 参 数 return_distance=True， 
回 包含 〈distances,neighbors) 的 元 组 ， 如 下 所 示 : 












































distances neighbors = knn.kneighbors (test face.reshape (1, -1)) 


测试 











样本 的 最 近邻 域 及 其 相对 距离 如 图 2-16 所 示 。 





加 天 加 国 阅 一 囊 图 阅 疼 





图 2-16 测试 样本 的 最 近邻 域 及 其 相对 距离 














第 一 个 样本 始终 是 测试 样本 《在 这 种 情况 下 ， 它 被 降 噪 所 以 其 距离 不 是 零 )。 正 如 我 们 所 
看 到 的 ， 即 使 距离 是 一 个 累积 函数 ， 第 二 个 和 第 四 个 样本 也 指 的 是 同一 个 人 ， 而 其 他 的 共享 不 
同 的 解剖 元 素 。 当 然 ， 欧 式 距离 不 是 测量 图 像 之 间 差 异 的 最 合适 方法 ， 但 这 个 例子 证 实 了 在 一 定 







































































程度 上 ， 当 图 像 相 当 相似 时 ， 全 局 距离 也 可 以 为 我 们 提供 有 价值 的 工具 ， 用 来 寻找 相似 的 样本 。 

















现在 让 我 们 用 方法 radius_neighbors() 在 设置 radius=100 的 条 件 下 执行 一 个 半径 查询 ， 
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如 下 所 示 : 


import numpy as np 





distances, neighbors = knn.radius neighbors (test face.reshape(1, -1), 
radius=100.0) 
sd, sd arg = np.sort(distances[0]), np.argsort (distances[0]) 








含 前 20 个 邻 域 的 结果 如 图 2-17 所 示 。 


FEFEPFEERE 
-epee er ee 


d=10.01 d=10.26 




























图 2-17 使 用 半径 查询 的 前 20 个 邻 域 


可 以 注意 到 , 有 趣 的 是 距离 并 没有 很 快 地 发 散 (第 二 个 样本 4=8.91 而 第 20 个 4=10.26)。 
这 主要 是 由 于 两 个 因素 : 第 一 个 是 样本 之 间 的 全 局 相似 性 (几何 元 素 和 色调 方面 ), 第 二 个 
可 能 与 欧式 距离 对 4096 维 向 量 的 影响 有 关 。 正 如 在 谈 到 聚 类 基本 原理 时 所 解释 的 那样 ， 高 
维 样本 可 能 缺乏 可 分 辨 性 (特别 是 当 p> 1 时)。 在 这 种 情况 下 ， 图 片 不 同 部 分 的 平均 效果 
可 以 产生 与 分 类 系统 完全 不 兼容 的 结果 。 特 别 地 ， 深 度 学 习 模型 往往 倾向 于 ， 通 过 使 用 可 
以 学 习 检 测 不 同 层次 上 特定 特征 的 卷 积 网 络 来 避免 这 种 陷阱 。 我 建议 用 不 同 的 度量 重复 这 
个 例子 ， 并 观察 p 对 半径 查询 样本 所 显示 的 实际 差异 的 影响 。 
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向 量 量化 是 一 种 利用 无 监督 学 习 对 样本 x;E 办 ”或 整个 数据 集 X 进行 有 损 压缩 的 方法 
(为 了 简单 起 见 , 我 们 假设 多 维 样本 被 展 平 )。 其 主要 的 思想 是 找到 包含 多 个 条 目 C< N 的 代码 
本 O， 并 将 每 个 元 素 与 一 个 条 目 g;s 0 相关 联 。 在 单个 样本 的 情况 下 ， 每 个 条 目 将 表示 一 个 
或 多 个 特征 组 (例如 它 可 以 是 平均 值 ), 因此 , 该 过 程 可 以 描述 为 一 个 变换 7,， 其 一 般 表 示 为 : 


ED (0) (N) 了 >( 也 po ee 
= (x say ) (9259) gc) = 互 


代码 本 定义 为 O = (gq,q;,…,4c)。 因 此 , 给 定 由 一 组 特征 聚合 (例如 一 组 两 个 连续 元 素 ) 
组 成 的 合成 数据 ，VQ 会 关联 一 个 代码 本 条 目 : 
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由 于 输入 样本 使 用 汇总 整个 组 的 固定 值 组 合 来 表示 ， 
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了 


该 过 程 被 定义 为 量化 。 类 似 地 ， 








如 果 输 入 的 是 数据 集 X， 则 转换 将 按 样 本 组 进行 操作 ， 
和 VQ 主要 区 别 在 于 目的 : VQ 月 
这 个 过 程 是 不 可 逆 的 。 一 旦 转换 完成 ， 就 不 可 能 
相同 原始 均值 和 协 方 差 的 分 布 中 采样 ， 但 显然 


让 我 们 从 一 个 非常 简单 的 高 斯 数据 集 的 例子 开始 ， 
































import numpy as np 


nb samples = 1000 


data = np.random.normal (0.0, 1.5, size= 
n vectors = 16 
qv = np.random.normal (0.0, 1.5, size= 


我 们 的 目标 是 用 16 个 向 量 表示 数据 集 。VQ 示例 所 


(nb_ samples, 


(n_vectors, 


就 像 任何 标准 的 聚 类 过 程 一 样 。KNN 


日 来 表示 共有 质心 的 每 个 聚 类 ， 从 而 减少 了 数据 集 的 方差 。 
有 E 建 原始 要 
E 建 的 是 一 个 近似 值 )。 





案 类 (唯一 可 行 的 方法 是 从 具有 


如 下 所 示 : 


2)) 


2)) 


量 的 初始 配置 如 图 2-18 所 示 。 
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图 2-18 VQ 示例 向 量 的 初始 配置 
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当 我 们 使 用 随机 数 时 ， 同 一 代码 的 后 续 执行 会 产生 不 同 的 初始 配置 。 该 程序 迭代 所 有 
样本 ， 选 择 最 近 的 量化 向 量 ， 并 将 其 距离 减少 一 个 固定 量 delta=0.05， 如 下 所 示 : 














import numpy as np 
from scipy.spatial.distance import cdist 


delta = 0.05 
n iterations = 1000 


for i in range(n iterations): 
for p in data: 
distances = cdist(gqv, np.expand dims (p, axis=0)) 
qvi = np.argmin (distances) 
alpha = p -qv[qvil] 
qv[qvi] += (delta * alpha) 


distances = cdist (data, qyv) 
Y qv = np.argmin (distances, axis=1) 

















除了 固定 的 for 循环 , 我 们 还 可 以 使 用 while 循环 来 检查 量化 向 量 是 否 已 达到 稳定 状态 
(比较 在 时 间 t 和 t+1 时 向 量 的 范 数 )。 这 个 过 程 结 束 时 的 结果 如 图 2-19 所 示 。 
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图 2-19 ”量化 向 量 的 最 终 配 置 《 左 ) 和 每 个 量化 向 量 的 影响 区 域 ( 右 ) 


正如 预期 的 那样 , 量化 向 量 已 达到 最 终 配 置 , 其 中 每 个 向 量 表示 数据 集 的 一 小 部 分 (如 
图 2-19 的 右 图 所 示 )。 此 时 ， 给 定 一 个 点 ， 最 近 的 向 量 将 表示 它 。 有 趣 的 是 ， 全 局 方差 没有 
受到 影响 ， 但 是 选择 任何 子 集 ， 内 部 方差 都 会 显著 降低 。 向 量 的 相对 位 置 反映 了 数据 集 的 
密度 ， 因 为 一 个 区 域 中 的 更 多 样本 吸引 了 更 多 向 量 。 通 过 这 种 方式 构建 距离 矩阵 ， 就 可 以 
得 到 粗略 的 密度 估计 《例如 当 一 个 向 量 与 其 近邻 之 间 的 平均 距离 较 高 时 ， 这 意味 着 潜在 区 
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域 的 密度 较 低 )。 我 们 将 在 第 6 章 中 更 详细 地 讨论 这 个 主题 。 


现在 让 我 们 来 考虑 一 个 示例 ， 其 中 一 个 样本 表示 滨 能 的 图 像 。 处 理 过 程 可 能 很 长 。 第 一 
步 是 加 载 RGB 图 像样 本 (由 SciPy 提供 )， 并 将 其 尺寸 调整 为 192 像素 x 256 像素 ， 如 下 所 示 : 


























from scipy.misc import face 
from skimage.transform import resize 


picture = resize (face (gray=False), output shape=(192, 256), mode="'reflect') 





VQ 示例 的 RGB 图 像样 本 (已 在 [0, 1] 范 围 内 标准 化 如 图 2-20 所 示 。 





0 50 100 150 200 250 








图 2-20 VQ 示例 的 RGB 图 像样 本 

我 们 要 用 2 x 2 的 正方 形 区 域 〈 由 包含 2x2x3 个 扁平 化 的 向 量 ) 计算 24 个 向 量 来 执 
行 VQ。 但 是 ， 我 们 不 需要 从 头 开始 执行 这 个 过 程 ， 而 是 使 用 K-means 算法 来 找到 质心 。 
第 一 步 是 收集 所 有 的 正方 形 区 域 ， 如 下 所 示 : 

















import numpy as np 


square fragment size = 2 
n fragments = int (picture.shape[0] * picture.shapel[l1l] /(square fragment 
size**2)) 


fragments = np.zeros (shape=(n fragments, square fragment size**2 *picture. 
shape[2])) 
idx = 0 
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for i in range(0, picture.shape[0], square fragment size) : 
for j in range(0, picture.shape[l1l], square fragment size): 





fragments[idx] = picture[i:i + square fragment size, 





j:j] + square fragment size, :].flatten() 





idx += 1 





此 时 ， 可 以 使 用 24 个 量化 向 量 执行 K-means 聚 类 ， 如 下 所 示 ; 





from sklearn.cluster import KMeans 


n qvectors = 24 


km = KMeans (n clusters=n qvectors, random state=1000) 
km.fit(fragments) 


dvs = km.predict (fragments) 








在 训练 结束 时 ， 变 量 qvs 将 包含 与 每 个 正方 形 区 域 相关 联 的 质心 的 索引 (通过 实例 变 


量 cluster centers 获得 )。 


现在 可 以 使 用 质心 构建 量化 图 像 ， 如 下 所 示 : 




















import numpy as np 


qv_ picture = np.zeros (shape=(192, 256, 3)) 
idx = 0 





for i in range(0, 192, square fragment size): 
for j in range(0, 256, square fragment size): 








qv picture[i:i + Square fragment size, 








j:j + square fragment size, :] = \ 
km.cluster centers [qvs[idx]].\ 
reshape( (square fragment size, square fragment size, 3)) 
idx += 1 








24 个 向 量 量化 图 像 如 图 2-21 所 示 。 


这 很 明显 是 原始 图 像 的 有 损 压缩 版 本 。 每 个 组 都 可 以 用 一 个 指向 代码 本 (km.cluster_ 
centers 〉 中 条 目的 索引 《例如 在 我 们 的 例子 中 ， 它 可 以 是 一 个 8 位 整数 ) 来 表示 。 所 以 ， 
如 果 最 初 有 192 x 256 x 3= 147456 个 8 位 值 ， 那 么 量化 后 有 12288 个 8 位 索引 (2 x 2 x 3 
块 ) 加 上 24 个 12 维 量化 向 量 。 为 了 理解 VQ 对 图 像 的 影响 ， 可 以 绘制 原始 图 像 和 量化 图 
像 的 RGB 直方 图 ， 如 图 2-22 所 示 。 
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图 2-21 24 个 向 量 量 化 图 像 
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图 2-22 ”原始 图 像 (上 ) 和 量化 图 像 (下 ) 的 RGB 直方 图 














对 于 不 熟悉 柱状 图 的 读者 ， 我 们 可 以 简单 地 将 其 描述 为 拥 
有 一 个 数据 集 卫 以 及 固定 数量 的 柱状 。 每 个 单元 格 都 分 配 
一 个 范围 (从 min(X) 开 始 ， 结 束 于 max(X))， 并 且 每 个 范 

围 (qa,b ) 与 样本 数量 相关 ， 使 得 a < x<b。 结 果 与 生成 了 
的 实际 概率 分 布 的 近似 值 成 比例 。 在 我 们 的 例子 中 ， 在 x 
轴 上 ， 每 个 通道 (8 位 ) 的 每 个 像素 都 有 所 有 可 能 的 值 ， 

而 》 轴 代表 估计 的 频率 ( Nx/ 像素 总 数 )。 
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可 以 看 出 ， 
数量 具 
本 书 的 范 
以 将 原始 图 
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结果 : 


量化 减少 了 信息 量 ，{ 
有 减少 近似 值 的 效果 ， 生 成 不 太 
围 ， 然 而 ， 我 建议 读者 


























旦 直方 图 倾向 于 重 现 











原来 的 信息 量 。 增 加 


量化 向 量 的 






































j 其 他 








像 的 〈 协 ) 方差 (或 ， 
闵 值 。 例 如 只 考虑 红色 通道 并 使 





商 ) 与 量化 



































import numpy as np 


hist 


p_original 


H original 


BoM 
H_q 





bits'.format (H original, 


hist original, _ 


_= np.histogram(qv Picture [:， 


print ('Original entropy: 


代码 段 的 输出 如 下 : 


Original entropy: 


由 于 信息 量 与 业 成 J 
大 约 74% 的 红色 通道 原始 焙 ( 即 使 3 个 通道 不 是 独立 的 ， 也 可 以 通过 3 个 炉 求 和 
果 质 量 之 间 找 到 平衡 点 。 





的 粗略 近似 值 )。 该 方 ; 
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来 在 给 定 的 查询 向 量 下 找到 最 相似 的 样本 ; 
或 数据 集 的 有 损 表 示 的 方法 。 





来 查找 样本 (例如 图 














， 我 们 从 相似 性 的 
。 我 们 讨论 了 K-means 算法 及 其 
。 然 后 ， 我 们 讨论 了 最 重要 的 评估 指 
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E 比 ， 我 们 现在 古 


十 和 已 
BE 


np.histogram(picture[:, :, 0] 


全 这 


hist q / np.sum(hist _ qd) 
-np.sum(p 9 * np.log2(p 9 + le-8)) 


H_q)) 


7.726 bits -Quantized entropy: 








0] .flatten () 


{0:.3f} bits -Quantized entropy: 


保持 在 





.flatten () 
wo:0y 


hist original / np.sum(hist original) 
-np.sum(p_original * np. log2(P original + le-8)) 


{Ls 


5.752 bits 























外 认 24 个 量化 向 量 


EE (具有 2 x 2 个 方块 
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颖 念 以 及 如 何 度量 相似 性 出 发 ， 前 述 了 
优化 变 体 K-means++， 并 分 析 了 威斯康星 州 乳腺 癌 数 所 
标 〈 无 论 是 否 了 解 基本 事 


E。 接 下 来 有 两 个 主题 ， 一 个 是 关于 KNN 的 ， 这 是 一 种 非常 著名 的 名 
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分 析 的 基本 概 


明显 差异 的 直方 图 。 对 这 一 主题 的 全 面 分 析 超 出 了 
图 像 和 不 同 数量 的 量化 向 量 来 测试 这 个 过 程 ， 
图 像 进行 比较 ， 找 到 一 个 
用 频率 统计 近似 每 个 值 (0= 255) 的 概率 ， 我 们 
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在 下 一 章 中 ， 我 们 将 介绍 一 些 非常 重要 的 高 级 聚 类 算法 ， 展 示 它 们 如 何 轻松 地 解决 非 
凸 问题 。 
2.9 ”问题 
1. 如 果 两 个 样本 有 等 于 10 的 闵可夫 斯 基 距 离 (p =5)， 那 么 你 能 说 出 它们 的 曼哈顿 距 
离 吗 ? 
2. 对 K-means 收敛 速度 产生 负面 影响 的 主要 因素 是 数据 集 的 维 数 。 正 确 吗 ? 
3. 对 KK-means 性 能 产生 积极 影响 的 最 重要 的 因素 之 一 是 聚 类 的 凸 性 。 正 确 吗 ? 
4. 聚 类 应 用 程序 的 同 质 性 分 数 等 于 0.99。 这 意味 着 什么 ? 
5. 调整 后 的 兰 德 分 数 等 于 -0.5 意味 着 什么 ? 
6. 考虑 问题 $S， 不 同 数量 的 聚 类 能 产生 更 好 的 分 数 吗 ? 
7. 基于 KNN 的 应 用 程序 平均 每 分 钟 需要 100 个 5-NN 基本 查询 。 每 分 钟 执行 2 个 50-NN 
查询 (每 个 查询 需要 4 秒 ， 叶 子 大 小 =25)， 然 后 立即 执行 2 秒 的 阻塞 任务 。 假 设 没 有 其 他 
延迟 ， 叶 子 大 小 等 于 50 时 ， 每 分 钟 可 以 执行 多 少 次 基本 查询 ? 
8. 由 于 ball-tree 结构 存在 维 数 灾难 ， 所 以 不 适合 对 高 维 数据 进行 管理 。 正 确 吗 ? 
9. 一 个 从 3 个 二 维 高 斯 分 布 中 采样 1000 个 样本 的 数据 集 : MI[-1.0, 0.0], diag[0.8, 0.2])， 


N([0.0, 5.0], diag[0.1, 0.1]) 和 MI[-0.8, 0.0], diag[0.6, 0.3])。 


射 在 [0.0, 1.0] 范 围 











是 否 可 以 用 VQ 来 压缩 文本 文 伯 
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内 ， 将 文本 拆 分 为 标记 ， 
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并 将 
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网 如 建立 一 个 字典 ， 其 ， 











哪 一 个 最 有 可 能 是 聚 类 上 





9 数量 ? 




















10000 个 证 




















其 转换 为 一 个 浮 点 序列 ) ? 
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在 本 章 中 , 我 们 将 继续 探索 可 用 于 非 凸 任务 (例如 -means 无 法 同时 获取 内 聚 和 分 离 ， 





























典型 的 示例 是 交错 的 几何 结构 ) 的 更 加 复杂 的 聚 类 算法 。 
























































算法 应 用 于 复杂 数据 集 ， 以 及 如 何 根 据 所 需 结果 正确 选择 

















我 们 还 将 演示 如 何 将 基于 密度 的 
超 参 数 和 评估 性 能 。 通 过 这 种 方 




















式 ， 数 据 科 学 家 可 以 在 面 对 不 同类 型 的 问题 时 ， 排 除 价值 较 低 的 解决 方案 ， 而 只 专注 于 最 














有 和 希望 的 解决 方案 。 
本 章 将 着 重 讨论 以 下 主题 。 




















请 了 洒 
。 谱 聚 类 。 


。 均值 漂移 。 








。 基于 密度 的 噪声 应 用 空间 聚 类 (Density-based Spatial Clustering of Applications 


with Noise，DBSCAN ) 。 


。 其 他 评估 指标 : Calinski-Harabasz 分 数 和 聚 类 不 稳 


e K-medoids。 




















I 


定性 。 


。 联机 聚 类 (Mini-batch K-means 以 及 使 用 层次 结构 的 平衡 迁 代 减少 和 聚 类 〈Balanced 
Iterative Reducing and Clustering using Hierarchies，BIRCH) )。 


3.1 技术 要 求 


本 章 中 的 代码 需求 如 下 。 


。 Python 3.5+ 《强烈 推荐 Anaconda 发 行 版 )。 
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数据 集 可 以 通过 UCI 数据 集 获 得 ， 除 了 在 加 载 阶段 添加 列 名 外 ， 不 需要 人 
示例 代码 可 在 本 书 配套 的 代码 包 获得 。 


SciPy 0.19+。 
NumPy 1.10+。 
Scikit-learn 0.20+。 
pandas 0.22+。 
Matplotlib 2.0+。 


seaborn 0.9+。 
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ee 种 算法 是 
捕获 聚 类 的 空间 〈 例 如 使 用 K-means )。 用 不 同 的 方式 都 可 以 实现 这 


是 谱 


入 滩 。 








聚 类 。 

















F 何 预 处 理 。 





主要 思想 是 将 数据 集 民 投影 到 可 以 





一 结果 ， 但 


1 状 区 域 的 凹陷 ， 第 一 步 始终 是 用 图 形 G = {VE} 来 表示 数 
中 顶点 = 各 和 加 权 边 表示 与 每 对 样 
本 xxi， Xi (xi, XjEX) 通过 参数 (wy 宇 0) 的 接近 度 。 





























生成 的 图 形 可 以 是 完整 的 (全 连接 的 )， 也 可 以 


是 仅 在 某 些 样本 对 《〈 即 无 权重 的 设置 为 0) 之 间 





具有 边 。 部 











分 图 形 示例 如 图 3-1 所 示 。 














有 两 种 





主要 策略 可 用 于 确定 权重 wj: KNN 和 
径 向 基 汪 数 (Radial Basis Function，RBF)。 第 











个 就 是 在 和 多 











第 2 章 讨 论 的 算法 。 考 虑 到 上 个 邻 域 ， 


数据 集 表示 为 ball-tree 或 者 kd-tree， 并 且 对 于 每 


个 样本 x;， 计 算 KNN0G) 集 合 。 此 时 ， 给 定 男 一 个 
样本 x， 权 重 计算 如 下 : 





在 这 种 
样 的 距离 函 











飞 3 
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x, esHNVG) 


w, = : 
Uy 0 日 

















情况 下 ， 图 像 并 不 包含 实际 8 
数 d(-)， 最 好 将 wi 表示 为: 





























E 离 的 





生 何 信息 。 


因此 ， 考 虑 到 在 KNN 
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图 形 示 例 : 点 Xo 是 侍 连接 到 zx 的 点 





使 用 的 同 
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dF) TekNN(E) 
lo 其 他 


该 方法 简单 并 且 很 可 靠 , 但 生成 的 图 像 并 不 是 完全 连接 的 。 通 过 采用 RBF 可 以 轻易 地 
实现 完全 连接 ， 定 义 如 下 : 





















































_ rls- 
Ww =€ 

















过 这 种 方式 ， 所 有 样本 对 都 会 根据 距离 自动 加 权 。 由 于 RBF 是 高 斯 曲线 ， 在 xj=x 
时 等 于 1 且 与 平方 距离 d(xi, xj)( 表 示 为 差 值 的 范 数 ) 成 比例 下 降 。 参 数 y 确定 半 钟 形 曲 线 
的 振幅 (通常 默认 值 是 y=1)。 当 y< 1 时， 振幅 增 大 ， 反 之 亦 然 。 因 此 ，y < 1 表示 对 距离 
的 灵敏 度 较 低 ， 而 当 y>1 时 ，RBF 下 降 得 更 快 ， 如 图 3-2 所 示 。 


a 


4 6 
oo 盐 “0h 0.0,x) 


图 3-2 二 维 RBF 作为 ?= 0.1、1.0 和 5.0 时， 计算 x 和 0 之 间 的 距离 的 函数 

















































































































当 y=0.1 时, x=1( 相 对 于 0.0) 的 加 权 约 为 0.9; 当 y= 1.0 时 , 该 值 约 为 0.5; 当 y=5.0 
时 ， 该 值 几乎 为 零 。 因 此 ， 在 调整 谱 聚 类 模型 时 ， 考 虑 y 的 不 同 值 并 选择 产生 最 佳 性 能 的 值 
是 非常 重要 的 (例如 使 用 第 2 章 中 讨论 的 标准 进行 评估 )。 一 旦 创建 了 图 形 ， 就 可 以 使 用 对 
称 关联 答 阵 大 {wy} 来 表示 。 对 于 KNN 而 言 ， 丈 通常 是 稀 玻 的 ， 可 以 使 用 专 有 库 进 行 有 效 的 
存储 和 操作 。 相 反 ， 对 于 RBF 而 言 ， 它 总 是 密集 的 ， 如 果 XE 办”“， 则 需要 存储 和 的 值 。 

不 难 证 明 ， 我 们 迄今 分 析 的 程序 相当 于 将 分割 为 多 个 内 聚 区 域 。 事 实 上 ， 让 我 们 考 
虑 一 个 通过 KNN 关联 矩阵 获取 图 形 的 例子 。 连 通 分 量 C; 是 子 图 ， 其 中 每 对 顶点 xw xpEC; 
通过 属于 C; 顶点 的 路 径 连接 ， 并 且 没 有 将 任何 属于 Ci; 的 顶点 同 不 属于 Ci 的 顶点 相连 接 的 
边 。 换 名 话说 ， 连 通 分 量 是 内 聚 的 子 集 CCEC， 表 示 聚 类 选择 的 最 佳 候选 。 从 图 形 中 提取 的 
连通 分 量 示 例 ， 如 图 3-3 所 示 。 


在 原始 空间 中 ， 点 x0。、xz 和 x 通过 xi 连接 到 zw、xw 和 xg。 这 可 以 表示 非常 简单 的 非 
凸 几何 结构 ， 如 半月 形 。 Ee 在 这 种 情况 下 ， 凸 性 假设 对 于 最 佳 分 离 不 再 是 必要 的 ， 
因为 正如 我 们 将 要 看 到 的 ， 这 些 分 量 被 提取 并 投影 到 具有 平坦 几何 形状 的 子 空间 (可 以 轻 
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易 通 过 诸如 人-means 算法 








xX 








Xs 














图 3-3 ”从 图 形 






























































当 使 用 KNN 时 ， 这 个 过 程 更 为 明显 。 


个 最 近 点 之 间 的 昌 
提出 了 解决 该 问题 的 最 常 
Machine Intelligence 的 论 











E 离 ) 与 平均 的 区 域 间 昌 


























规范 化 图 












































的 拉 普 拉 斯 





L=IT-D"'W, 其 9 
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中 提取 的 连通 分 量 示 例 


但 一 般 地 ， 我 们 可 以 说 当 区 域 间 距离 (例如 两 
E 离 相当 时 ， 可 以 将 两 者 合并 。Shi 和 Malik 已 经 
方法 之 一 《在 期 刊 JEEE Transactions on Pattern Analysis and 
全文 Normalized Cuts and Image Segmentation 中 )， 它 被 称 为 标准 化 
切割 。 整 个 证 明 超 出 了 本 书 的 范围 ， 但 我 们 可 以 讨论 主要 概念 。 给 定 一 个 图 形 ， 可 以 构建 
子 (Laplacian 算 子 )， 定 义 如 下 : 


PD = ol "| 
j 
































对 角 和 矩 阵 DD 称 为 次 数 和 矩阵 ， 每 个 元 素 di 是 对 应 行 的 权重 之 和 。 上 述 算 子 可 以 证 明 以 下 陈述 。 


。 在 特 和 











D2 
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联 ，Shi 和 Malik 建议 构建 包含 第 
法 (如 K-means) 对 行进 
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如 
。 刀 
日 
Vv 
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下 空间 的 指标 











FE 分 解 L (考虑 
=4Dy， 很 容易 计算 技术 特征 值 


[ 果 G 是 无 向 图 (因此 WW 关 0YV7， 
[I 果 4c "和 OB 是 4 的 可 数 子 集 ( 即 外 是 可 数 子 集 ， 因 为 样本 的 数量 始终 是 有 限 





到 未 标准 化 的 图 



























































形 的 拉 普 拉 斯 算 子 L,=D-V 并 且 求 解 方程 
和 特征 向 量 ) 后 ， 














空 特征 值 总 是 以 多 重 性 己 存 在 。 



































则 连通 分 量 的 数量 等 于 ( 空 特征 值 的 多 重 性 )。 


















































的 )， 则 在 给 定 &E @ 的 必 











Fely 
中 








9=1， 否 则 区 =0。 例 如 





的 第 一 个 特征 向 量 p (对 应 于 空 特 和 


因此 ， 如 果 数 据 集 是 由 M 个 xiE 办” 的 样本 组 成 ,并 








一 个 p 特 和 


我 们 有 两 个 向 生 

































































况 下 ， 向 量 vE 多 “被 称 为 9 的 指标 向 量 。 如 果 %E4 则 
量 a=( 0) 和 b= (0, 0) (那么 9= {a, 5b}), 我 
] 考 虑 4 = {(1,n)， 其 中 neE[1,10]}， 问 量 v= (1,0) 是 一 个 指标 向 量 ， 因 为 aE4 且 b44。 


F 值 ) 是 由 每 个 连通 分 量 C1,C,…,C, 跨越 的 本 






































图 形 G 与 关联 和 矩阵 WW“ 相关 




















FE 向 量 作为 列 的 矩阵 BE 狠 “2?， 并 使 用 简单 方 
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了 聚 类 。 























事实 上， 每 行 表 示 样 本 投影 在 p 维 子 空间 上 ， 其 中 非 凸 
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性 由 可 以 包围 成 规则 球 的 子 区 域 表 示 。 
现在 让 我 们 应 用 谱 聚 类 来 分 离 用 以 下 代码 段 生 成 的 二 维 正 弦 数 据 集 : 





import numpy as np 
nb_ samples = 2000 


X0 = np.expangd dims (np.linspace(-2 * np.pi, 2 * np.pi, nb samples), axis=1) 
Y0 = -2.0 -np.cos(2.0 * XxX0) + np.random.uniform(0.0, 2.0, 

size=(nb samples, 1)) 

Xl1 = np.expand dims (np.linspace(-2 * np.pi, 2 * np.pi, nb samples), axis=1) 
Yl = 2.0 -np.cos(2.0 * X0) + np.random.uniform(0.0, 2.0, size=(nb samples, 1)) 


data 0 = np.concatenate ([X0, Y0], axis=1) 


data 1 = np.concatenate ([X1, Y1], axis=1) 
data = np.concatenate([data 0, data 1], axis=0) 


谱 聚 类 示例 的 正弦 数据 集 如 图 3-4 所 示 。 


X1 





图 3-4 ” 谱 聚 类 示例 的 正弦 数据 集 


我 们 没有 说 明 任 何事 实 真相 , 我们 的 目标 是 分 离 两 个 正弦 曲线 ( 非 凸 的 )。 检查 捕 获 正 
弦 波 的 球 是 否 也 包含 属于 其 他 正弦 子 集 的 许多 样本 是 很 容易 的 。 为 了 显示 单纯 的 K-means 
与 谱 聚 类 (scikit-learn 实现 了 Shi-Malik 算法 ， 然 后 是 K-means 聚 类 ) 之 间 的 差异 ， 我 们 将 
训练 两 个 模型 ， 后 者 使 用 y = 2.0 (gamma 参数 ) 的 RBF (affinity 参数 )。 当 然 ， 我 建议 大 
家 也 测试 其 他 值 以 及 KNN 的 亲和力 。 基 于 RBF 的 解决 方案 显示 在 以 下 代码 段 中 : 
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from sklearn.cluster import SpectralClustering KMeans 
km = KMeans (n clusters=2, random _ state=1000) 
sc = SpectralClustering (n_ clusters=2, affinity='rbf', gamma=2.0, 


random state=1000) 


Y pred km = km.fit predict (data) 
Y pred sc = sc.fit predict (data) 


结果 如 图 3-5 所 示 。 


Dataset Spectral Clustering K-Means 











图 3-5 原始 数据 集 ( 左 )， 谱 聚 类 结果 (中 ) 和 K-means 结果 ( 右 ) 

正如 你 所 见 ，K-means 治 x 轴 用 两 个 球 对 数据 集 进 行 分 割 ， 而 谱 聚 类 则 成 功 且 正确 地 
分 离 了 两 个 正弦 曲线 。 无 论 何 时 聚 类 的 数量 以 及 数据 集 蕊 的 维 数 都 不 是 太 大 时 《在 此 情况 
下 ， 拉 普 拉 斯 算 子 的 特征 分 解 可 能 变 得 十 分 晶 贵 )， 该 算法 是 非常 强大 的 。 此 外 ， 由 于 该 算 
法 是 基于 图 形 切 割 过 程 的 ， 因 此 很 适合 聚 类 数量 均匀 的 时 候 。 


3.3 均值 漂移 

































































让 我 们 考虑 从 多 变量 数据 生成 过 程 pu 中 提取 的 数据 集 Xe ”*”(M 个 入 维 样本 )。 
让 用 于 聚 类 问题 的 均值 漂移 算法 的 目标 是 查找 puu 的 最 大 区 域 ， 并 将 周围 区 域 中 包含 的 样 
本 关联 到 同一 个 聚 类 。 由 于 pu 是 概率 密度 函数 (Probability Density Function， 了 PDF )， 
因此 可 以 将 其 表示 为 常规 PDF〔〈 例 如 高 斯 ) 的 总 和 ， 其 特征 在 于 具有 一 小 部 分 的 参数 ， 如 
均值 和 方差 。 这 样 ， 我 们 可 以 假设 样本 由 具有 最 高 概率 的 PDF 生成 。 我 们 将 在 第 5 章 和 第 
6 章 中 讨论 此 过 程 。 出 于 我 们 的 目的 ， 将 问题 重 构 为 迭代 过 程 是 会 有 帮助 的 ， 该 过 程 会 更 
新 平均 向 量 ( 质 心 ) 的 位 置 直 到 它们 达到 最 大 值 。 当 质心 达到 其 最 终 位 置 时 ， 使 用 标准 近 
邻 函数 将 样本 分 配给 每 个 聚 类 。 
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函数 A 


论文 On Esti 














法 的 第 一 步 是 确定 近似 pu 的 合适 方法 。 
是 基于 Parzen 窗口 (Parzen Windows) 的 使 月 











' 经 典 的 方法 (将 在 第 6 章 中 讨论 ) 














有 。 现 在 ， 可 以 说 Parzen 窗口 是 一 个 非 负 核 
)， 其 特征 是 一 个 称 为 带宽 (Bandwidth ) 的 参数 (有关 进 一 步 的 细节 ， 请 查看 原始 
mation of a Probability Density Function and Mode)。 顾 名 思 义 ， 这 一 参数 的 作用 
























































是 扩大 或 限制 Parzen 窗口 接近 其 最 大 值 区域。 与 高 斯 分 布 进行 类 比 ， 带 宽 与 方差 的 作用 相 


同 。 因 此 ， 小 的 带宽 将 产 9 
联 。 不 难 理解 ， 在 这 种 特殊 情况 下 ， 聚 类 的 数量 是 ! 
此 原因 ， 大 多 数 实 现 (如 scikit-learn) 仅 使 用 一 个 参数 并 计 















































均值 周围 值 非常 高 的 函数 ， 而 较 大 的 值 则 与 更 平坦 的 函数 相关 


















































带宽 和 其 他 方式 隐 式 地 决定 的 。 出 于 
另 一 个 参数 。 考 虑 到 此 算法 

















知 站 











设计 用 于 概率 分 布 ， 自 然 的 选择 是 指定 所 需 的 带宽 或 者 实现 
来 比 施 加 特定 数量 的 聚 类 更 复杂 ， 但 是 在 许多 实际 情 





















































知 时 ， 更 加 容易 测试 不 同 带宽 的 结果 。 
均值 漂移 最 常见 的 选择 是 使 用 n 个 扁平 内 核 的 总 和 (n 是 质心 数 ) 近似 数据 生成 过 程 : 


因 ] 





可 
ZI 
CC 


K(*) 是 平方 距离 (如 标准 球 ) 和 带宽 有 的 函数 。 有 太 多 的 候选 函数 可 以 被 使 用 ， 但 是 
斯 内 核 (RBF)， 其 中 天 起 到 了 方差 的 作用 ， 其 得 到 的 近似 值 非常 平滑 ， 





最 明显 的 就 是 高 


\ 表 真实 过 程 的 分 段 函数 。 














n sp 1 
Pun ~ 2 K(x) Where 及 (一 ] 1 
1 






































最 佳 带宽 的 检测 。 此 过 程 看 起 
况 下 ， 特 别 是 当 少 部 分 的 基本 事实 已 














Ixl 上 Er 


其 他 



































比 ， 在 收敛 后 ， 每 个 样本 由 最 接近 的 质心 





























示 。 不 幸 的 是 ， 这 种 近似 导致 了 一 个 不 大 











因此 ， 最 好 使 用 基于 相同 底层 内 核 的 平滑 Parzen 窗口 K(*): 





Ea 
Paata Ts Sx h? 
1=1 















































n 个 峰值 对 应 于 质心 ( 即 均值 )。 一 旦 定义 函数 后 ， 就 可 以 计算 质心 xb x2,…, x 的 最 佳 

















位 置 。 




















给 定 质 心 和 


球 Bi)， 





并 且 与 昌 





























相应 的 均值 漂移 矢量 定义 为 : 




















上 近邻 函数 〈 为 简单 起 见 ， 我 们 假定 使 用 半径 为 上 且 K(x) 关 0vxEB, 的 标准 


2 eB, cl 一 万 x ] 





而 (元 ) = 
























































全 
~ 


Di 一 石 ) 
正如 可 以 看 到 的 , m(*) 是 使 用 K(*) 加 权 的 所 有 











bh 近 样 本 的 均值 。 显然 由 于 K(*) 是 对 称 的 





E 离 相关 的 ， 当 x; 达 到 真实 均值 时 m(*) 将 趋 于 稳定 。 现 在 应 该 更 清楚 的 是 ， 小 的 值 
























































迫使 算法 引入 更 多 的 质心 以 便 将 所 有 样本 分 配给 聚 类 。 相 反 ， 大 的 带宽 可 能 导致 单个 聚 类 


的 最 终 丁 























E 置 。 和 迭代 过 程 以 初始 化 的 质 必 猜测 xx 


























,2 开始 ， 并 使 用 规则 校正 向 量 : 
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和 





前 面 的 公式 很 简单 ， 在 每 个 步 又， 质心 移动 〈 位 移 ) 更 接近 m(*)。 这 样 ， 由 于 m(*) 与 
相对 于 x; 计算 的 邻 域 密度 成 比例 ， 当 x 达到 概率 最 大 的 位 置 时 ，m(*) 一 mpnar， 不 再 需要 更 
新 。 当 然 ， 收 敛 速度 受到 样本 数量 的 影响 很 大 。 对 于 非常 大 的 数据 集 ， 该 过 程 会 因为 每 个 
均值 漂移 向 量 所 需 邻 域 的 预先 计算 而 变 得 非常 缓慢 。 另 一 方面 ， 当 聚 类 标准 由 数据 密度 定 
义 时 ， 该 算法 非常 有 用 。 

例如 现在 让 我 们 考虑 一 个 合成 数据 集 ， 其 中 包含 3 个 具有 对 角 协 方差 的 多 元 高 斯 生成 
的 500 个 二 维 样本 ， 如 下 所 示 : 


import numpy as np 

















nb samples = 500 


data 1 = np.random.multivariate normal([-2.0, 0.0], np.diag([1.0, 0.5]), 
size= (nb samples,)) 

data 2 = np.random.multivariate normal ([0.0, 2.0], np.diag([1.5, 1.5]), 
size=(nb samples,)) 

data 3 = np.random.multivariate normal ([2.0, 0.0], np.diag([0.5, 1.0]), 
size=(nb_ samples,)) 





data = np.concatenate([data 1, data 2, data 3], axis=0) 


平均 位 移 算法 示例 的 样本 数据 集 如 图 3-6 所 示 。 


6 . 


X1 











图 3-6 平移 位 移 算法 示例 的 样本 数据 集 
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在 这 种 情况 下 ， 我 们 知道 基本 事实 ， 但 是 需要 测试 不 同 的 带宽 并 比较 结果 。 由 于 生成 
的 高 斯 彼此 非常 接近 ， 一 些 外 部 区 域 可 以 识别 为 聚 类 。 为 了 重点 研究 最 优 参数 ， 我 们 可 以 
观察 到 平均 方差 (考虑 不 对 称 性 ) 是 1。 因 此 ， 我 们 可 以 考虑 值 h=0.9、1.0、1.2 和 1.5。 
此 时 ， 我 们 可 以 实例 化 scikit-learn 的 类 MeanShift， 通 过 参数 bandwidth 传递 有 hh 值 ， 如 下 所 示 : 

















from sklearn.cluster import MeanShift 


mss = [] 
Y preds = [] 
bandwidths = [0s9; 1.0; LT27 1:5] 
for b in bandwidths: 
ms = MeanShift (bandwidth=b) 
Y preds.append (ms.fit predict (data)) 


mss.append (ms) 


在 密度 分 析 后 ， 训 练 过 程 会 自动 地 选择 质心 的 数量 和 初始 位 置 。 








不 幸 的 是 ， 这 个 数字 





通常 大 于 最 终 数 字 (因为 局 部 密度 差异 )。 因此 该 算法 会 优化 所 有 的 质心 , 但 是 在 完成 之 前 ， 


会 执行 合并 过 程 以 消除 所 有 太 靠 近 其 他 质心 的 质心 〈 即 重复 的 质心 )。 




















scikit-learn 提供 了 参 


数 bin_seeding， 可 根据 带宽 对 样本 空间 进行 离散 化 (分 箱 )， 从 而 加 速 这 一 研究 。 通过 这 种 








方式 ， 可 以 减少 合理 精度 下 损失 的 候选 者 数量 。 
4 个 训练 过 程 结束 时 的 聚 类 结果 ， 如 图 3-7 所 示 。 


Bandwidth: 0.9 





Bandwidth: 1.0 


Bandwidth: 1.2 


.Cluster1 
w Cluster2 
Cluster 3 





图 3-7 ”针对 不 同 带宽 的 均值 漂移 聚 类 结果 











如 你 所 见 ， 








Bandwidth: 1.5 


带宽 的 微小 差异 可 能 导致 不 同 数量 的 聚 类 。 在 我 们 的 例子 中 ， 最 优 值 是 


有 =1.2， 这 产生 了 一 个 结果 ， 即 确定 了 3 个 不 同 的 区 域 (加 上 包含 潜在 异常 值 的 额外 聚 类 )。 














最 大 聚 类 的 质心 大 致 对 应 于 实际 均值 ， 但 是 聚 类 的 形状 不 像 人 








F 何 的 高 斯 分 布 ， 这 是 一 个 缺 


陷 ， 可 以 通过 采用 其 他 方法 来 解决 (在 第 5 章 中 讨论 )。 事 实 上 均值 漂移 与 局 部 近邻 一 起 使 














用 ， 并 且 不 假定 puun 属于 特定 分 布 。 




















因此 ， 最 终 的 结果 是 将 数据 准确 地 分 割 成 高 密度 区 域 
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(注意 最 大 分 离 不 再 是 必需 的 ), 也 可 以 从 多 个 标准 分 布 的 车 加 中 派生 出 来 。 在 没有 任何 先 
验 假设 的 情况 下 ， 我 们 不 能 指望 结果 是 非常 规律 的 ， 但 是 将 该 算法 与 VQ 进行 比较 ， 很 
容易 注意 到 分 配 是 基于 找到 每 个 密集 斑点 的 最 佳 代表 的 想法 。 因此 ,由 具有 低 概率 的 高 斯 
Nw 三 ) 生 成 的 一 些 点 被 分 配给 不 同 的 察 类 ， 高 斯 的 质心 比 4 更 具 代表 性 (就 距离 而 言 )。 




























































































3.4 DBSCAN 

















DBSCAN 是 另 一 种 基于 数据 集 密度 估计 的 聚 类 算法 。 然 而 与 均值 漂移 相反 ，DBSCAN 
没有 直接 参考 数据 生成 过 程 。 实 际 上 ， 在 这 种 情况 下 ， 该 过 程 通过 自 下 而 上 的 分 析 建 立 样本 
间 的 关系 ,从 丈 由 低 密度 区 域 分 隔 的 高 密度 区 域 (斑点 ) 组 成 的 一 般 假 设 开始 。 因 此 DBSCAN 
不 仅 需要 最 大 分 离 约束 ， 而 且 还 强制 执行 此 类 条 件 以 确定 聚 类 的 边界 。 此 外 ， 该 算法 不 允许 
指定 所 需 的 聚 类 数量 ， 这 是 忒 结 构 的 结果 ， 但 是 与 均值 漂移 类 似 ， 可 以 控制 过 程 的 粒度 。 

特别 地 ，DBSCAN 基于 两 个 基本 参数 : s 表示 以 样本 xi 为 中 心 的 球 BX) 的 半径 ，nnin 
是 必须 包含 在 Bx) 中 的 最 小 样本 数 ， 以 便 将 x; 视 为 核心 点 ( 即 可 以 被 认定 为 诊 类 的 实际 成 
员 的 点 )。 从 形式 上 讲 ,给 定 函数 N(*) 计 算 集合 中 包含 的 样本 数量 ， 如 果 符 合 以 下 情况 ， 则 
样本 xiE 称 为 核心 点 : 












































































































































N(B, (五 )) nm 





所 有 xyEB00) 的 点 被 定义 为 从 x; 直接 密度 可 达 (Directly Density-Reachable)。 这 种 条 件 
是 点 之 间 的 最 强 关 系 ， 因 为 它们 都 属于 以 x; 为 中 心 的 同一 个 球 ， 并 且 BW) 中 包含 的 样本 总 数 
足够 大 ， 足 以 将 邻 域 视 为 密集 子 区 域 。 此 外 ， 如 果 存 在 一 个 序列 zw 一 zl 一 … 一 5， 其 中 xl 被 
定义 为 从 x; 直接 密度 可 达 〔 对 于 所 有 顺序 对 )，x%j 被 定义 为 从 x 密度 可 达 (Density-Reachable)。 
这 个 概念 非常 直观 ， 如 图 3-8 所 示 。 












































Xo 
x ” XY 














医 3-8 如 果 了 7 六 一 4， 则 点 X27 从 Xo 密度 可 达 
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如 果 我 们 设置 样本 的 最 小 数 等 于 4，xo、x 和 加 都 是 核心 点 , xi 从 xo 是 直接 密度 可 达 ， 











x2 从 xi 是 直接 密度 可 达 。 



































是 密度 连接 (Density-Connected ) 的 。 
请 务必 了 解 这 样 的 条 件 比 密度 可 达 性 要 弱 ， 因 





因此 ， xz 是 从 xo 密度 可 达 。 换 句 话说 ， 这 意味 着 
重 县 的 密集 球 (CN 三 Po )， 从 如 开始 到 xz 结束 。 我 们 可 以 通过 增加 ; 
念 扩 展 到 属于 球 的 所 有 其 他 点 : 给 定点 xx*， 如 果 x 和 x 


党 
古 








可 以 定义 一 系列 
步 的 定义 将 此 概 
从 x 密度 可 达 的 ， 则 点 x; 入 























为 为 了 保证 密集 链 ， 有 必要 考虑 第 三 个 























点 ， 它 表示 两 个 密集 子 
不 能 从 刀 密 度 可 达 〈 反 之 亦 然 )。 只 要 满足 最 小 相 
样本 不 均匀 分 布 ， 但 倾向 于 在 小 的 超 体积 

因此 ， 举 例 来 说 ， 如 果 N(a) > nmm 且 NMaD)< Mo， 则 
含 al 的 球 Ba@)〈 以 及 许多 其 他 点 )。 然 而 ， 在 逆转 换 ai 一 a 中 ，Bs(a1) 不 能 
直接 密度 可 达 的 条 件 。 










































































区 域 之 间 的 连接 器 。 事 实 上 ， 可 能 有 两 个 密度 连接 点 ac 和 4b， 其 中 4a 
本 数量 仅 在 一 个 方向 上 移动 〈 即 属于 球 的 
累积 )， 这 种 情况 就 会 发 生 。 














aal 的 转换 可 以 允许 构建 也 包 
够 密集 以 建立 











因此 ， 在 两 个 方向 中 的 一 个 方向 上 移动 时 ， 我 们 可 以 破坏 较 长 的 序列 ， 从 而 导致 密度 


可 达 性 的 损失 。 现 在 应 该 更 清楚 的 是 ， 




















题 的 前 提 是 要 有 另 一 个 点 可 以 同时 到 达 x 入。 





所 有 ,jEX 的 密度 连接 点 对 








Ct， 所 有 从 坟 密 度 可 达 的 点 xpEX 也 将 属于 同一 个 聚 类 。 





的 附 











没有 标签 ， 它 们 的 数量 应 该 很 低 ， 因 此 用 双重 目标 调整 参数 
以 避免 过 多 的 点 被 标记 为 噪声 。 没 有 标准 规则 来 实现 这 样 的 目标 ， 因 此 我 





化 内 聚 和 分 离 ， 





























在 xi 和 两 点 之 间 的 密度 连接 允许 我 们 避免 这 个 问 


(xi，xj) 将 被 分 配给 相同 的 聚 类 C,。 此 外 ， 如 果 xxE 

从 在 
的 点 被 定义 为 噪声 点 。 因 此 与 其 他 算法 相反 ，DBSCAN 输出 
加 集合 (不 一 定 被 视 为 异常 值 ， 而 是 不 属于 任何 密集 子 


E 何 其 他 点 x;E 外 不 能 密度 可 达 
n 个 聚 类 以 及 包含 所 有 噪声 点 
区 域 的 点 )。 当 然 ， 由 于 噪声 点 



































建议 在 做 出 最 终 决 定 前 测试 不 同 的 值 。 


最 后 ， 重 要 的 是 记 住 DBSCAN 可 以 处 至 




















& 和 mr 是 非常 重要 的 : 最 大 
































被 低 密度 区 域 包含 的 高 密度 区 域 。 此外， 











内 复杂 度 与 采 月 








非 凸 几何 ， 并 




















与 均值 漂移 相反 ， 它 假设 存在 











月 的 KNN 方法 (暴力 搜索 ,ball-tree 


或 kd-tree) 严格 相关 。 通 常 当 数据 集 不 是 太 大 时 ， 平 均 性 能 为 O(NlogN), 但 是 当 WN 非常 大 


时 ， 复 杂 度 可 能 会 倾向 OC0VY?)。 另 一 个 需要 记 
论 过 的 ， 高 维度 可 能 会 降低 两 点 的 可 辨识 度 ， 
此 当 维 度 非 常 高 时 ， 应 避免 (或 者 至 少 要 仔 旨 

















效 地 表示 实际 密集 





在 展示 其 体例 子 之 前 ， 引 入 一 种 在 基本 事实 未 知 时 采 


助 的 。 


区 域 。 









































分 析 ) 




















的 重要 因素 是 样本 的 维 数 。 正 如 我 们 已 经 讨 
从 而 对 KNN 方法 的 性 能 产生 负面 影响 。 因 
j DBSCAN， 因 

















为 得 到 的 聚 类 无 法 有 







































































的 进一步 评估 方法 是 用 
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3.4.1 ”Calinski-Harabasz 分 数 





















































假设 聚 类 算法 已 经 应 用 于 包含 M 样本 的 数据 集合 人 ， 以 便 将 其 分 割 成 由 质心 wvi = 1,…nc 
表示 的 个 聚 类 C;。 我 们 可 以 定义 聚 类 内 色散 (Within-Cluster Dispersion，WCD ) 如 下 : 


一 < 




















JFCD(UD =Tr(X,), 其 中 筷 =>>GC- ZT A) 
如 果 x; 是 N 维 列 向 量 , 则 天 E ”不 难 理解 CD( 有 是 对 聚 类 的 伪 方 差 全 局 信息 进 
行 编码 。 如 果 满 足 最 大 内 聚 条 件 ， 我 们 期 望 有 限 的 分 布 在 质心 周围 。 另 一 方面 ，JrCD( 
[至 会 受到 包含 异常 的 单个 聚 类 的 负面 影响 。 因 此 ， 我 们 的 目标 是 在 每 种 情况 下 最 小 化 
WCD( 有 。 类 似 地 ， 我 们 可 以 将 聚 类 间 色 散 (Between-Clusters Dispersion，BCD ) 定义 为 : 




























































































BCDUD =77(B,), 其 中 有 = DN(C)(R, -D1 7D 





在 前 面 的 公式 中 ，MC) 是 分 配给 聚 类 Ci 的 元 素数 量 , 4 是 整个 数据 集 的 全 局 质心 。 考 
虑 到 最 大 分 离 原 则 ， 我 们 希望 密集 区 域 远离 全 局 质心 。BCD( 有 恰好 表达 了 这 个 原则 ， 因 此 
需要 最 大 化 它 以 获取 更 好 的 性 能 。 

Calinski-Harabasz 分 数 定义 为 : 


























—k BCD(k 
CH (X ? 了 ) = ly 人 ) 
上 -1 JFCD( 






































由 于 不 考虑 质心 计算 是 聚 类 算法 的 一 部 分 ， 因 此 Calinski-Harabasz 分 数 引 入 了 对 预测 
标签 的 显 式 依赖 性 。 分 数 没 有 绝对 的 意义 ， 但 是 有 必要 比较 不 同 的 值 以 便 了 解 哪 种 解决 
方案 更 好 。 显 然 ，CH4(*) 越 高 ， 聚 类 性 能 越 好 ， 因 为 这 种 条 件 意 味 着 更 大 的 分 离 和 更 大 的 


内 聚 。 
3.4.2 使 用 DBSCAN 分 析 工 作 数 据 集 中 的 缺勤 率 


工作 缺勤 数据 集 〈 按 照 3.1 节 的 说 明 下 载 ) 由 740 条 记录 组 成 ， 其 中 包含 休假 员工 的 
信息 。 有 20 个 属性 分 别 代表 年 龄 、 服 务 时 间 、 教 育 、 习 惯 、 疾 病 、 违 纪 、 交 通 费 用 、 从 家 
至 办 公 点 距离 ， 等 等 (有 关 字 上 段 的 完整 描述 请 访问 UCI 数据 集 的 Absenteeismtatt+work)。 
我 们 的 目标 是 预 处 理 这 些 数据 并 应 用 DBSCAN， 以 便 发 现 具 有 特定 语义 内 容 的 密集 区 域 。 


第 一 步 按照 如 下 方式 加 载 CSV 文件 (必须 更 改 占 位 符 <data_path> 以 指向 文件 的 实际 
位 置 ): 
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import pandas as pd 


data path = '<data path>\Absenteeism at work.csv' 





df = pd.read csv(data path, sep=';', header=0, index col=0) .fillna(0.0) 
print(dfs count()) 





代码 段 的 输出 如 下 所 示 : 
Reason for absence 740 
Month of absence 740 
Day of the week 740 
Seasons 740 
Transportation expense 740 
Distance from Residence to Work 740 
Service time 740 
Age 740 
Work load Average/day 740 
Hit target 740 
Disciplinary failure 740 
Education 740 
Son 740 
Social drinker 740 
Social smoker 740 
Pet 740 
Weignt 740 
Height 740 
Body mass index 740 
Absenteeism time in hours 740 





dtype: int64 

















其 中 一 些 功 能 是 分 类 的 , 并 使 用 顺序 整数 进行 编码 (例如 Reason for absence、Month of 
absence 等 )。 由 于 这 些 值 在 没有 精确 的 语义 原因 的 情况 下 会 影响 距离 (例如 Month=12 大 于 
Month=10， 但 这 两 个 月 在 距离 方面 是 等 效 的 )， 我 们 需要 在 接 下 来 的 步骤 前 ， 对 所 有 的 功 
能 进行 独 热 编码 (新 的 特征 将 附加 在 列表 的 末尾 )。 在 下 面 的 代码 片段 中 ， 我 们 使 用 函数 
pandas() 的 方法 get dummies0 来 执行 编码 ， 然 后 删除 原始 列 : 


import pandas as pd 


































































































cdf = pd.get dummies (df, columns=['Reason for absence', 'Month of absence', 





'Day of the week', 'Seasons', 'Disciplinary failure', 'Education', 'Social 
drinker', 'Social smoker']) 
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cdf cdf.drop(labels=['Reason for absence', 
the week', 
drinker', 


'Disciplinary failure', 
']) .astype (np.float64) 


'Seasons', 
"Social smoker 




















'Month of absence', 
'Education', 
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'Day of 
"SOCLal 
































独 热 编码 的 结果 通常 会 产生 均值 之 间 的 差异 ， 因 为 许多 特征 被 限制 为 0 或 1， 而 其 他 
特征 (例如 年 龄 ) 可 以 具有 更 宽 的 范围 。 因 此 ， 人 (不 要 影响 标准 差 ， 








为 它们 与 现存 信息 成 正比 , 因此 将 其 保持 不 变 是 有 帮助 的 )。 
如 下 所 示 : 


因 
设置 参数 with_std=False 可 以 实现 这 个 步骤 ， 








from sklearn.preprocessing import StandardScaler 


StandardScaler (with std=False) 
ss.fit transform(cdf) 


ss 
sdf 


此 时 ， 如 往常 一 样 ， 我 们 可 以 使 用 t-SNE 算法 来 减少 数据 集 维 度 ( 通 
并 可 视 化 结构 。 数 据 帧 df 将 包含 原始 数据 集 和 t-SNE 坐标 ， 如 下 所 示 : 








pt 


from sklearn.manifold import TSNE 





tsne TSNE 
data tsne 








(n_components=2, 


perpl 
tsne.fit transform(sdf) 






























































通过 使 用 StandarScaler 类 并 





过 n_components=2)， 


xity=15, random state=1000) 


df tsne = pd.DataFrame (data tsne columns=['x', 'y'], index=cdf.index) 
dff = pd.concat ([cdf, df tsne], axis=1) 
t-SNE 工作 数据 集中 缺勤 情况 的 二 维 表示 如 图 3-9 所 示 。 
ee 2 Sa 
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图 3-9 ft-SNE 工作 数据 集中 缺勤 情况 的 二 维 表示 
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在 考虑 使 用 这 个 结果 之 前 ， 重 要 的 是 重复 t-SNE 以 产生 最 佳 的 低 维 表示 ， 但 是 总 是 需 
要 在 原始 数据 集 上 测试 算法 以 检查 由 t-SNE 识别 的 近邻 是 否 对 应 于 实际 的 聚 类 。 特 别 地 ， 
考虑 到 DBSCAN 的 结构 以 及 t-SNE 的 表示 形式 ，s 值 可 能 是 合理 的 。 但 是 当 移 动 到 更 高 维 
空间 时 ， 球 无 法 再 捕获 相同 样本 。 然 而 ， 前 面 的 图 显示 了 被 空白 空间 包围 的 密集 区 域 的 存 
在 。 不 幸 的 是 ， 密 度 不 太 可 能 是 均匀 的 (这 是 DBSCAN 的 建议 之 一 ， 因 为 和 ,的 值 都 
不 能 改变 )， 但 在 这 种 情况 下 ， 我 们 假设 密度 对 所 有 斑点 是 恒定 日 

为 了 给 我 们 的 目标 找 出 最 佳 配 置 ， 我 们 使 用 p=2、p=4、p=8、p=12 的 闵可夫 斯 基 度量 
绘制 了 聚 类 的 数量 、 噪 声 点 的 数量 、 轮 廓 分 数 ， 还 使 用 Calinski-Harabasz 分 数 作为 s 的 函 
数 ， 如 图 3-10 所 示 。 


Number of clusters Number of noise points Silhouette score Calinski-Harabasz score 
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图 3-10 评估 指标 作为 s 的 函数 


轮廓 和 Calinski-Harabasz 都 是 基于 聚 类 为 凸 的 假设 〈 例 如 色散 显然 是 一 种 假设 样本 
围绕 质心 的 径 向 分 布 的 度量 )， 因 此 在 非 凸 聚 类 的 情况 下 其 预期 值 通常 较 小 。 然 而 ， 我 
们 希望 最 大 化 两 个 分 数 〈 轮 廊 一 1、Calinski-Harabasz 一 ce )， 同 时 避免 大 量 聚 类 。 考 虑 
到 我 们 的 初始 目标 〈 找 到 具有 特定 特征 集合 的 内 聚 聚 类 )， 我 们 选择 了 s=25 和 p=12 的 
闵可夫 斯 基 度 量 ， 这 产生 了 一 个 合理 数量 的 聚 类 〈13) 和 22 个 噪声 点 。 在 第 2 章 中 我 
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们 已 


差异 。 


凸 斑 


致 17 个 聚 类 ) 对 于 中 等 粗 粒 度 分 析 来 说 可 能 是 一 个 很 好 的 权衡 (考虑 到 有 20 个 属性 )。 此 
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经 证 明了 ， 当 p 一 (但 是 在 p>2 时 效果 已 经 可 见 了 ) 时 ， 距 离 趋 向 于 最 大 的 特征 


























因此 ， 这 种 选择 应 始终 通过 语 境 分 析 来 证 明 。 在 这 种 情况 下 ， 我 们 可 以 假设 每 个 〈 非 ) 
点 代表 一 个 由 特定 特征 支配 的 类 别 〈 上 共有 所 有 其 他 特征 的 次 要 贡献 )， 因 此 p=12 导 




































































外 ，s=22.5 与 最 高 Calinski-Harabasz 分 数 129.3 相关 联 ， 并 且 轮 廊 分 数 约 等 于 0.2。 特 别 是 























后 








个 值 表示 整体 聚 类 是 正确 合理 的 ， 但 可 能 存在 重合 。 由 于 基础 几何 体 非常 可 能 是 非 凸 


























的 ， 


























因此 这 样 的 结果 是 可 以 接受 的 (通常 不 是 在 凸 的 情况 下 )， 同 时 考虑 具有 相应 峰值 的 












































Calinski-Harbasz 分 数 。s 的 较 大 值 产生 高 的 轮 廊 分 数 〈( 小 于 0.23)， 但 所 产生 的 聚 类 数量 和 
Calinski-Harbasz 分 数 都 不 受 配 置 的 影响 。 必 须 明 确 的 是 ， 这 一 选择 尚未 得 到 任何 外 部 证 据 
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实 ， 并 且 必 须 通过 对 结果 的 语义 分 析 进 行 验证 。 如 果 需 要 细 粒 度 的 分 析 ， 那 么 具有 更 
类 数量 和 更 多 噪声 点 的 配置 也 是 可 以 接受 的 〈 因 此 ， 读 者 可 以 使 用 这 些 值 并 对 结果 进 
释 )。 但是， 此 示例 的 最 终 目 标 保 持 不 变 ， 对 数据 集 进 行 分 段 ， 以 便 每 个 聚 类 包含 特定 



























































































































































《可 能 是 唯一 的 ) 属性 。 
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我 们 可 以 实例 化 DBSCAN 模型 并 使 用 包含 规范 化 特征 的 数组 sdf 对 其 进行 训练 。 配 











地 























是 s=25 (参数 eps) 和 nw = 3 参数 min samples)， 以 及 p=12 的 闵可夫 斯 基 度 





(metric='minkowski' )。 





我 们 现在 可 以 执行 以 下 聚 类 : 


from sklearn.cluster import DBSCAN 
from sklearn.metrics import silhouette score, calinski harabaz score 


ds = DBSCAN (eps=25, min samples=3, metric='minkowski', p=12) 
Y pred = ds.fit predict (sdf) 


print('Number of clusters: {}'.format (np.max(Y pred) + 1)) 
print('Number of noise points: {}'.format (np.suml(Y pred==-1))) 


print('Silhouette Score: {:.3f}'.format (silhouette score(dff, Y pred, 
metric='minkowski', p=12))) 
print('Calinski-Harabaz Score: {:.3f}'.format (calinski harabaz Score (dff, 
Y_pred))) 








由 于 DBSCAN 使 用 标签 -1 标记 噪声 点 ， 代 码 段 的 输出 如 下 : 


Number of clusters: 13 
Number of noise points: 22 
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0..2 
Calinski-Harabaz score: 


Silhouette score: 




















129..860 








工作 数据 集 缺勤 的 聚 类 结果 如 图 3-11 所 示 。 
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图 3-11 工作 数据 集 缺 勤 的 聚 类 结果 

















正如 你 所 看 见 的 《我 建议 ; 




















且 
的 噪声 点 实际 上 没有 与 其 他 相 











一 些 聚 类 被 部 分 地 分 开 。 这 不 是 算法 的 失败 ， 而 是 降 维 的 直接 结果 。 在 原 











运行 代码 以 获取 更 好 的 视觉 确认 )， 大 多 数 的 隔离 〈 即 使 在 
t-SNE 图 中 没有 内 聚 ) 区 域 已 经 被 成 功 检测 到 了 ， 
还 可 以 观察 到 两 个 基本 结果 : 噪声 点 〈 用 














并 有 旦 样本 已 经 分 配给 相同 的 聚 类 。 我 们 
上 字 标 记 的 ) 在 t-SNE 表示 中 并 没有 被 隔离 ， 并 
台 空 间 中 ， 所 

































































县 或 接近 。 然 而 我 们 感 兴趣 的 是 高 密度 和 准 内 聚 非 凸 区 域 ， 幸 运 的 是 ， 它 们 在 二 维 


表现 相关 。 
现在 让 我 们 考虑 两 个 不 同 的 




















本 密度 连接 ， 但 它们 可 能 在 t-SNE 图 中 看 起 来 与 某 些 点 重 
图 中 也 


























区 域 (为 简单 起 见 ， 我 们 将 分 析 在 独 热 编码 后 的 前 10 个 属 








性 )。 第 一 个 是 二 维 区 域 x< -4$， 如 下 所 示 ; 





sdff = dff[ (dff.x < -45.0)] 
print (sdff[sdff.columns[0:10] 








对 应 于 x< -45 子 数据 集 的 统计 度 


hl 








.describe ()) 


， 如 表 3-1 所 示 。 
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表 3-1 对 应 于 xX < -45 子 数据 集 的 统计 度量 
Transpo SR Service Work load 
rtation Age Average/ |Hit target| Son Pet Weight | Height 
Residence! time 
expense day 
to Work 





count| 67.0 |67.000000|67.000000167.000000| 67.000000 | 67 000000167.000000|67.000000I67.000000| 67.000000 





mean| 179.0 |50.910448|17.940299|38.223881|251.817418|95.253731| 0.0149235 | 0.014923 |88.820896|170.074627 





std 0.0 |0.733017 | 0.488678 | 1.832542 | 10.791693 | 2.382660 | 0.122169 | 0.122169 | 1.466033 | 0.610847 





min | 179.0 |45.000000|14.000000|38.000000|230.290000|87.000000| 0.000000 | 0.000000 [77.000000|170.000000 





2S9% | 179.0 |51.000000|18.000000|38.000000|241.476000193.000000| 0.000000 | 0.000000 |89.000000|170.000000 





Ss0% | 179.0 151.000000|18.000000138.000000|2531.818000 | 96.000000| 0.000000 | 0.000000 |89.000000|170.000000 





75% | 179.0 151.000000|18.000000138.000000|264.249000 |97.000000| 0.000000 | 0.000000 |89.000000|170.000000 
































max | 179.0 |51.000000|18.000000|53.000000|271.219000199.000000| 1.000000 | 1.000000 |89.000000|175.000000 
































两 个 因素 可 以 立即 引起 我 们 的 关注 : 交通 费用 (似乎 标准 化 的 是 179) 和 子女 的 数量 
(考虑 到 平均 值 和 标准 差 ， 对 于 大 多 数 的 样本 对 应 为 0)。 我 们 还 要 考虑 服务 时 间 和 从 居住 
地 到 工作 地 点 的 距离 , 这 有 助 于 我 们 找到 聚 类 的 语义 标签 。 所 有 其 他 参数 区 分 性 都 比较 低 ， 
我 们 在 这 个 简要 的 分 析 中 将 它们 排除 在 外 。 因 此 ， 我 们 可 以 假设 这 样 的 一 个 子 聚 类 ， 他 们 
大 约 40 岁 且 没有 子女 ， 服 务 时 间 很 长 ， 离 办 公 地 点 很 远 〈 我 请 读者 检查 全 面 的 统计 数据 来 
确认 这 一 点 )， 有 标准 化 的 交通 费用 (例如 一 次 性 付 清 的 汽车 费用 )。 


现在 让 我 们 将 这 一 结果 与 -20 <x<20 和 y<20 的 区 域 做 对 比 ， 结 果 如 下 : 


sdff = dff[ (dff.x > 20.0) & (dff.y > -20.0) & (dff.y < 20.0)] 
print (sdff[sdff.columns[0:10]] .describe()) 
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对 应 于 -20 <x <20 和 y<20 子 数据 集 的 统计 度量 如 表 3-2 所 示 。 





表 3-2 对 应 于 -20 <x < 20 和 yy < 20 子 数据 集 的 统计 度量 
Transport- DR Service Work load 
ation Residence| time Age Average/ | Hit target| Son Pet Weight | Height 
expense day 
to Work 





countl165.000000|165.000000|165.000000|165.000000|165.000000|165.000000|165.000000I165.000000|165.000000|165.000000 





Imeanl234.37573823.212121 |11.818182 B37.436364 256.33464294.309091 [0.987879 |1.436364 [78.842424 |169.987879 



































std |8.321244 BB.129882 B.616144 |8.112991 [20.949033 4.166677 [0.634264 |1.743598 |13.169603 4.075489 
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续 表 
Transport- Service Work load 
人 Residencel tine Age A Hittarget| Son Pet Weight | Height 
了 to Work y 
min 225.000000|11.000000 |1.000000 [28.000000 [205.917000B1.000000 |0.000000 |0.000000 |65.000000 |163.000000 





25% 225.00000020.000000 .000000 ”R28.000000 P41.476000|82.000000 |1.000000 


0.000000 “69.000000 |167.000000 





S0% 2353.00000023.000000 |13.000000 8 7.000000 P61.306000|985.000000 |1.000000 


1.000000 69.000000 |169.000000 





75% 246.00000026.000000 |14.000000 43.000000 P68.5319000|988.000000 |1.000000 


2.000000 BB 


8.000000 |172.000000 





max |248.00000051.000000 |16.000000 |58.000000 B02.585000|99.000000 PR.000000 





在 这 种 情况 下 ， 交 通 费 用 较 大 ， 而 从 居住 
舍 差 )。 然 而 ， 子 女 的 平均 数量 为 1， 有 2 个 子女 
时 间 约 为 12， 标 准 差 为 3.6。 我 们 可 以 推断 这 个 聚 类 包含 了 所 有 已 
样本 ,居住 地 与 办 公 地 点 相对 较 近 但 是 交通 费用 较 高 (例如 由 于 使 用 出 租车 服务 )。 这 些 员 
门 的 平均 工作 量 与 前 一 个 例子 中 观察 到 的 几乎 相 
和 认 ， 我 们 也 可 以 假设 这 些 员工 通常 效率 更 高 ， 而 第 一 个 集合 包含 高 产 
们 需要 更 多 的 时 间 来 实现 


半 ( 也 考虑 标 ?7 








工 倾向 于 避免 加 班 ， 但 他 
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mT 





地 到 工作 地 点 的 昌 














8.000000 |106.000000|182.000000 








E 离 大 约 是 


前 一 个 示例 的 





的 员工 数量 比例 适中 ， 服 务 



















































































, 婚 、 年 龄 在 28 一 58 人 员 的 








同 。 即 使 没有 正 





























目标 例如 因为 路 途 时 间 更 长 )。 























这 显然 不 是 
统计 特征 来 展示 如 何 找 到 聚 类 的 语义 内 容 。 在 现实 生活 中 ， 所 有 的 观察 必须 由 专家 例如 
人 力 资源 经 理 ) 验证 ， 以 便 了 解 分 析 的 最 后 部 分 〈 特 别 是 语义 上 下 文 的 定义 ) 是 否 正确 或 

















是 .天 二 本 估 
是 否 需要 使 


单个 聚 类 的 所 有 





























的 员工 ， 但 是 他 


个 详尽 的 分 析 ， 也 不 是 一 套 客观 的 陈述 。 分 析 的 目的 是 通过 观察 样本 的 





















































3.4.3” 聚 类 不 稳定 性 作为 性 能 指标 


聚 类 不 稳定 性 是 Von Luxburg 提出 的 方法 (在 Cluster stability: an overview 中 )， 可 以 


衡量 算法 对 于 特定 数据 集 的 优 劣 。 它 可 以 月 











佳 数量 ), 3 


























通常 有 两 




















定义 了 原始 数据 集 X 的 












































' 可 能 性 : 噪声 扰动 太 强烈 或 算法 对 于 小 的 变化 太 敏 感 ， 不 是 很 








组 扰动 (或 子 采 样 ) 版 本 : 











i 当 
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用 更 多 数量 的 聚 类 、 不 同 的 指标 或 其 他 算法 。 作 为 练习 ， 我 建议 大 家 分 析 包 含 
区 域 ， 以 便 完成 一 个 大 图 并 测试 对 应 不 同类 别 的 人 工 样 本 的 预测 《例如 非 
常年 轻 的 人 ， 有 3 个 子女 的 员工 ， 等 等 )。 












































日 于 不 同 的 目的 (例如 调整 超 参 或 找到 聚 类 的 最 
且 计算 相对 容易 。 该 方法 基于 以 下 思想 : 满足 最 大 内 聚 和 分 离 要 求 的 聚 类 结果 ， 
对 于 数据 集 的 噪声 扰动 也 应 该 是 鲁 棒 的 。 换 句 话 说， 如果 数 和 
则 派生 数据 集 有 %, (基于 特征 的 小 扰动 应 该 映射 到 同一 个 聚 类 集合 。 如 果 不 满足 该 条 件 





集 郑 已 经 分 割 成 聚 类 集合 C， 

















稳定 。 因 此 我 们 
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(| 














如 果 我 们 应 用 一 个 产生 相同 数量 的 聚 类 me 的 算法 4， 可 以 定义 4CD 和 4C9) 的 距离 度 




















量 ddJ， 它 测量 不 一 致 分 配 的 数量 〈 即 4C9D))， 并 且 可 以 表示 为 向 量 函数 ， 其 返回 对 应 每 个 
点 的 赋值 。 因 此 ， 假 设 必 要 时 算法 以 相同 方式 传播 ， 且 数据 集 明显 地 没有 随机 排列 ，d(*) 
可 以 简单 计算 不 同 标签 的 数量 。 算 法 的 不 稳定 性 〈 关 于 蕊 的 上 噪声 变化 ) 定义 为 : 

































































1CO= gaooeu CCD AXD)) 





因此 , 不 稳定 性 是 两 对 噪声 变化 聚 类 结果 之 间 的 平均 距离 。 当 然 这 个 值 并 不 是 绝对 的 ， 

















因此 可 以 推导 出 的 规则 是 : 选择 产生 最 小 不 稳定 性 的 配置 。 同 样 重要 的 是 ， 这 种 方法 与 之 
前 讨论 的 其 他 方法 无 法 比较 。 由 于 它 基 于 其 他 的 超 参 数 〈 噪 声 变 化 的 数量 、 噪 声 均 值 和 方 
































2 
a | 


子 采样 率 ， 等 等 )， 因 此 在 4 入 固定 时 它 也 可 能 产生 不 同 的 结果 。 特 别 是 噪声 的 大 






































小 可 以 显著 地 改变 不 稳定 性 ， 因 此 在 决定 高 斯 噪声 的 和 克之 前 ， 有 必要 评估 头 的 均值 和 




















这 
思 



































协 方差 矩阵 。 在 示例 中 (基于 工作 缺勤 数据 集 的 DBSCAN 聚 类 ), 我 们 创建 了 20 个 扰动 版 
本 ， 




















从 累加 噪声 项 n; 一 NE[ 和 I，Cov(X )/4) 开 始 并 应 用 倍增 掩 码 从 均匀 分 布 U0, 1) 中 采样 。 
这 种 方式 ， 茶 些 噪声 可 以 随机 消除 或 减少 ， 如 下 面 代码 所 示 : 








import numpy as np 


data = sdf.copy() 


n perturbed = 20 
n data = [] 


data mean = np.mean (data, axis=0) 
data cov = np.cov(data.T) / 4.0 


for i in range(n perturbed): 

gaussian noise = np.random.multivariate normal (data mean, data cov, 
size=(data.shape[0], )) 

noise = gaussian noise * np.random.uniform(0.0, 1.0, 
size=(data.shape[0], data.shape[1])) 

n data.append(data.copy() + noise) 





























在 这 种 情况 下 ， 我 们 将 不 稳定 性 计算 为 s 的 函数 ， 也 可 以 使 用 其 他 算法 或 超 参 来 重复 
示例 。 此 外 ， 我们 使 用 规范 化 的 Hamming 距离 ， 该 距离 与 两 个 聚 类 结果 之 间 不 一 致 的 





























分 配 数量 成 比例 ， 如 下 所 示 : 


from sklearn.cluster import DBSCAN 
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from sklearn.metrics.pairwise import pairwise distances 
instabilities = [] 


fo EPs in Np.arandge(S50y 3L0y Ld5): 
Yn = [] 
for nd in n data: 
ds = DBSCAN (eps=eps, min samples=3, metric='minkowski', p=12) 
Yn.append(ds.fit predict (nd)) 
distances = [] 
for i in range (len (Yn)-1): 
for j in range(i, len (Yn)): 
d = pairwise distances (Yn[i] .reshape(-1, 1), Yn[j] .reshape 
(=s1,. LY hamming™) 
distances.append(d[0, 0]) 
instability = (2.0 * np.sum(distances)) / float(n perturbed ** 2) 
instabilities.append(instability) 























DBSCAN 的 聚 类 不 稳定 性 应 用 于 工作 缺勤 数据 集 作 为 的 函数 ， 如 图 3-12 所 示 。 
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图 3-12 DBSCAN 的 聚 类 不 稳定 性 应 用 于 工作 缺勤 数据 集 作 为 s 的 函数 


当 s<7 时 ， 值 为 null。 这 样 的 结果 是 因为 算法 生成 了 大 量 聚 类 和 噪声 样本 。 由 于 样本 
分 布 在 不 同 的 区 域 ， 小 的 扰动 并 不 能 改变 分 配 。 而 当 7<s< 17 时 ， 我 们 观察 到 正 斜 率 达 到 
最 大 值 约 s= 12.5， 然 后 是 负 和 斜率 达到 了 最 终 值 0。 在 这 种 情况 下 ， 聚 类 变 得 越 来 越 大 ， 并 
且 包含 越 来 越 多 的 样本 ， 然 而 ， 当 s 仍然 太 小 时 ， 密 度 可 达 性 链 很 容易 被 小 扰动 破坏 《〈 即 
样本 越过 球 的 边界 ， 被 聚 类 排除 在 外 )。 因 此 ， 在 应 用 附加 噪声 后 ， 样 本 通常 被 分 配 到 不 同 
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的 聚 类 。 这 种 现象 在 s= 12.5 时 达到 最 大 值 ， 然 后 就 开始 变 得 


事实 上 ， 当 s 足够 大 时 ， 球 的 结合 可 以 包 庄 整个 聚 类 ， 为 小 扰动 吕 
类 ， 如 果 噪 声 不 是 太 强 ， 忆 
FE 了 高 稳定 性 ， 也 是 ; 
1 几何 形状 ， 但 是 我 建议 在 决 





当然 ， 在 根据 数据 集 到 
本 将 生成 相同 的 分 配 。 在 我 们 的 特定 情况 下 ，s 
认 的 。 一 般 来 说 ， 这 种 方法 可 以 














六 赋值 后 








个 到 


， 将 仅 生成 单 























于 所 有 算法 和 




















之 前 对 凶 进 行 全 面 分 析 。 
定性 , 且 并 不 表示 坏 的 或 好 的 表现 。 特别 地 , 当 聚 
j 加 的 噪声 对 某 些 样 本 的 





况 下 ， 此 方法 比 























了 洲 





中 小 区 可 能 














开关 








于 可 达 怕 
K-means 测试 这 种 方法 ， 以 便 找到 最 人 





事实 上 ,错误 的 决定 可 


= 25 保 订 


会 已 司 人 
月 已 条 和 





响 结果 ， 
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有 不 同 
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不 那么 明显 。 









































加 下 足够 的 空余 空 | 
g 么 所 有 挑动 版 
前 过 t-SNE 








的 方差 时 ( 例 妇 








二 
页 和 





响 可 以 忽略 不 计 ，1 


j 它 可 以 完全 改变 








EH 余 样 





[在 高 其 





司 。 
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确 








定 创建 扰动 版 本 
从 而 产生 一 种 或 大 或 小 的 不 稳 
混合 中 )， 


本 的 结构 。 在 这 些 情 














耳 x 漆 


























3.5 K-medoids 


在 第 2 章 中 ， 我 们 已 经 训 
选择 。 但 是 , 这 一 算法 有 两 个 主要 的 





指标 始终 是 欧 氏 的 ， 























局 限 性 : 
对 于 异常 值 鲁 棱 性 不 











是 








中 的 质心 。 
均值 会 受到 




















FE 常 好 。 第 一 个 因素 是 显而易见 的 ， 而 第 
二 个 因素 是 质心 性 质 的 直接 结果 。 事 实 上 ， 
K-means 选择 的 是 实际 均值 不 包含 在 数据 集 
因此 , 当 聚 类 具有 一 些 异 常 值 时 ， 
影响 并 按 比 例 向 它们 移动 。 此 处 
举 一 个 示例 ， 其 中 存在 几 个 异常 值 迫使 质心 























到 达 密 集 区 域 以 外 的 位 置 ， 如 图 3-13 所 示 。 


K-medoids 最 初 (在 Clustering by means 





of Medoids 


PF) 被 提 



































其 他 方法 弱 ， 应 使 用 方差 很 小 的 高 斯 噪声 〈 通 常 小 于 最 小 











和 六 






































异常 值 


协 方差 /方差 ) 
进行 二 次 采样 来 应 用 此 方法 。 另 一 方面 ， 对 于 基于 密度 的 算法 ， 子 采样 显然 是 非常 危险 的 ， 





的 损失 而 变 成 了 一 组 孤立 的 噪声 点 。 我 建议 大 家 也 使 用 
的 聚 类 数量 《〈 通 常 与 最 小 不 稳定 性 相关 )。 

















E 明 ， 当 聚 类 的 几何 体 是 凸 状 时 ，K-means 通常 是 一 个 不 错 的 


Medoid 


FP 心 点 








质心 

向 

pe 

图 3-13 ”质心 选择 示例 〈 左 ) 和 F 
选择 示例 〈 右 ) 








出 是 为 了 减轻 异常 值 对 鲁 棒 性 的 缺乏 〈 在 原始 论文 中 ， 该 算法 设计 为 


仅 适 用 于 曼哈顿 指标 ), 但 后 续 设 计 了 不 同 的 版 本 以 允许 用 于 任何 度量 (特别 是 任意 的 闵 可 




















夫 斯 基 度 量 )。K-medoids 与 K-means 最 主要 的 不 同 在 于 质心 的 选择 ， 其 质心 妇 





台 终 


口 一 /7 





属于 数据 


集 的 示例 样本 〈 称 为 medoid )。 该 算法 本 身 与 标准 K-means 非常 相似 ， 并 且 交 蔡 定 义 medoid 


Wi 二 XiEX〈 作 为 最 小 化 分 玫 
本 到 最 近 的 medoid 的 聚 类 。 


配 检 











了 这 
聚 类 








给 聚 类 C; 的 所 有 其 他 检 
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二 少 们 
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本 的 平均 距离 或 总 距离 的 元 素 ) 
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上 





新 分 
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民 容 易 理解 异常 值 不 再 基 














一 SN 











有 较 高 的 权重 ， 因 为 与 标准 质心 相反 ， 它 们 








被 选 为 medoid 


的 概率 接近 于 零 。 另 一 方面 ， 当 聚 类 由 归 类 为 异常 的 远离 样本 包围 的 密集 斑点 组 成 时 ， 


K-medoids 的 性 能 较 差 。 在 这 种 情况 下 ， 算 法 可 能 会 错误 地 分 配 这 些 样本 ， 因 为 它 无 法 生 





























成 可 以 捕获 这 些 样本 的 虚拟 球 ( 请 记 住 ,半径 是 由 质心 或 medoid 的 相互 位 置 隐 式 定义 的 )。 









































因此 ， 昌 然 K-means 可 以 将 质心 移动 到 非 密集 区 域 以 便 捕获 远离 的 点 ， 但 是 当 密集 斑点 包 
含 太 多 点 时 ，K-medoids 不 太 可 能 以 这 种 方式 运行 。 





联合 














此 外 ，K-medoids 倾向 于 聚合 


均值 的 位 置 将 整个 区 域 分 为 两 个 部 分 。 如 果 凸 几何 的 假设 成 立 ， 则 通常 会 接受 此 行为 ， 但 
在 其 他 情况 下 它 可 能 是 一 种 限制 (我 们 将 在 接 下 来 的 示例 中 展示 此 效果 )。 
区 别 就 是 度量 距离 。 由 于 没有 限 第 



































K-medoids 和 K-means 最 后 一 个 根本 
有 侵略 性 。 正 如 我 们 在 第 2 章 开 始 讨论 的 那 了 





























可 能 或 多 或 少 























(以 相同 的 方式 评估 每 个 分 量 的 不 同 ) 
分 量 之 间 的 最 大 差异 成 了 分 量 的 优势 。K-means 其 二 










































































是 供 ， 而 当 p 增加 时 《在 通 月 














有 两 个 峰值 的 高 重 蕉 的 斑点 ， 而 K-means 通常 根据 平 





E£， 最 长 的 距离 由 曼哈顿 度量 
日 的 Minkowski 度量 中 )， 
最 常见 的 折 中 方案 ( 吹 氏 距离 )， 但 当 

















|， 开 -medoids 
































较 大 的 p 值 可 以 导致 更 好 的 性 能 时 会 有 一 些 特殊 情况 ( 当 比 较 p=1 与 p>1 时 ， 效 果 更 为 明 




















显 )。 当 C1 一 (0,0)、 C2 一 (2,1) 
1.7， 而 欧 氏 距离 为 1.37 和 1.47。 
配 在 第 一 个 点 。 

















一 般 来 说 ， 预 测 正确 的 p 值 并 不 容易 ， 












































数 等 方法 测试 多 种 配置 ， 并 选择 产生 更 好 分 割 的 配 
































整 后 的 兰 德 分 数 )。 在 我 们 的 示例 中 ， 将 生成 一 个 包含 基本 寻 





松 地 使 用 后 一 个 选项 来 评估 性 能 。 

















并 将 样本 在 [-5.0,5.0] 的 方 框 内 分 为 8 个 斑点 ， 如 下 所 示 : 





from sklearn.datasets import make blobs 


nb _ samples = 1000 
nb clusters = 8 


日 是 总 是 可 以 使 用 类 似 轮 所 








有 实 的 数 所 





X = (0.55,1.25)， 曼 哈 顿 距离 4q1(x,c1) 和 4d1(x,c2) 分 别 为 1.8 和 
因此 当 p=1 时 , 该 点 被 分 配 到 第 二 个 聚 类 , 而 p=2 时 分 





Ph 和 调整 后 的 兰 德 分 
( 即 最 大 化 内 聚 力 和 分 离 或 更 高 的 调 














居 集 ， 因 此 我 们 可 以 轻 
因此 ， 我 们 将 使 用 函数 make_blobs0 生 成 1000 个 样本 ， 








XxX, Y = make blobs(n samples=nb samples, n features=2, centers=nb clusters, 


cluster std=1.2, center box=[-5.0, 





random state=1000) 





tm 


生成 的 数据 集 呈 现 强 烈 的 重 营 《如 图 
高 水 准 的 结果 ， 但 感 兴趣 的 是 比较 K-means 和 天 -medoids 所 做 的 分 配 。 
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3-16 所 示 )， 因 此 我 们 不 期 望 使 


看 版 权 
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让 我 们 开始 评估 由 KK-means 取得 的 调整 后 的 兰 德 分 数 ， 如 下 所 示 : 








from sklearn.cluster import KMeans 
from sklearn.metrics import adjusted randq score 


km = KMeans (n clusters=nb clusters, random state=1000) 
C km = km.fit predict (Xx) 


print('Adjusted Rand Score K-Means: {}'.format (adjusted rand score(Y,C km))) 


代码 块 的 输出 如 下 所 示 : 


Adjusted Rand score K-Means:0.4589907163792297 

















该 值 足 以 理解 K-means 正在 执行 许多 错误 的 分 配 ， 特 别 是 在 重合 区 域 。 由 于 数据 集 很 
难 使 用 这 种 方法 进行 聚 类 ， 我 们 未 将 此 结果 视 往 真正 指标 ， 而 是 作为 可 以 与 K-medoids 分 
数 进行 比较 的 度量 。 让 我 们 通过 p=7 的 Minkowski 度量 来 实现 这 一 算法 (建议 大 家 更 改 该 
值 并 检查 结果 )， 如 下 所 示 : 




























































































import numpy as np 


C= np.random.randint (0, nb clusters, size=(X.shape[0],), dtype=np.int32) 


mu idxs = np.zeros (Shape= (nb clusters, X.shape[1])) 
metric = 'minkowski'"' 
p=7 


tolerance = 0.001 





mu copy = np.ones like (mu idxs) 





禹 
[Ea 


数组 C 包含 赋值 ， 而 mu_idxs 将 包含 medoid。 由 于 存储 完整 medoid 所 需 的 空间 草 
常 很 小 ， 我 们 更 喜欢 这 个 方法 而 不 是 仅仅 存储 索引 。 优 化 算法 如 下 所 示 : 

















import numpy as np 


from scipy.spatial.distance import pdist, cdist, squareform 
from sklearn.metrics import adjusted rand score 


while np.linalg.norm(mu idxs -mu copy) > tolerance: 
for i in range (nb clusters): 
Di = squareform(pdist(X[C == i], metric=metric, p=p)) 





SDi = np.sum(Di, axis=1) 
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mu_copy[il = mu iaqxs[il.copy() 
idx = np.argmin (SDi) 
mu idxs[i] = X[C == i] [idqx]j.copy() 


C= np.argmin(cdist(X, mu idxs, metric=metric, p=p), axis=1) 
print('Adjusted Rand score K-Medoids: {}'.format (adjusted rand score(Y, C))) 
这 个 行为 很 简单 。 在 每 次 志 代 中 ， 我 们 计算 属于 一 个 聚 类 的 所 有 元 素 之 间 的 成 对 距离 
(这 实际 上 是 最 费时 费力 的 部 分 ), 然后 我 们 选择 最 小 化 总 和 SDi 的 medoid。 在 一 次 循环 后 ， 


我 们 通过 最 小 化 它们 与 medoid 之 间 的 距离 来 分 配 样 本 。 重 复 操作 指导 medoid 的 范 数 变化 
小 于 预定 的 阐 值 。 调 整 后 的 兰 德 分 数 如 下 所 示 : 























Adjusted Rand score K-Medoids: 0.4761670824763849 


最 终 调整 后 的 兰 德 分 数 受 算法 的 随机 初始 化 影响 ， 因 
此 之 前 的 结果 在 运行 代码 时 可 能 有 轻微 的 变化 。 在 实 

中) 际 应 用 中 ， 我 建议 使 用 基于 最 大 化 迭代 次 数 与 小 容 差 
的 双 停 止 标准 。 


因此 ， 即 便 重 炙 问题 尚未 解决 ，K-medoids 性 能 也 略 好 于 K-means。 基 本 事实 、K-means 
和 K-medoids 的 结果 ， 如 图 3-14 所 示 。 





Ground truth K-means K-medoids with Minkowski metric and p=7 


X1 














图 3-14 基本 事实 ( 左 )、K-means (中 ) 和 K-medoids ( 右 ) 

正如 你 所 看 到 的 , 共 本 事实 包含 两 个 非常 难以 育 类 的 重 羞 区域。 在 这 个 特定 的 示例 中 ， 
我 们 对 于 解决 这 个 问题 并 不 感 兴 趣 ， 而 对 展示 两 种 方法 的 不 同行 为 更 感 兴 趣 。 如 果 我 们 考 
虑 前 两 个 斑点 〈 左 上 角 )，K-means 将 整个 区 域 分 成 两 部 分 ， 而 K-medoids 将 所 有 元 素 分 配 
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给 同一 个 聚 类 。 在 不 知道 
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基本 事实 的 情况 下 ,后 一 个 结果 可 能 比 前 一 个 更 为 连贯 。 事实 上 ， 














观察 第 一 个 图 ， 我 们 可 能 
在 某 些 情况 下 这 可 能 是 合 到 
预期 结果 。 此 外 ， 根 据 不 相似 性 来 
被 错误 地 分 配 )， 因 此 K-medoids 是 上 
算法 几乎 以 相同 的 方式 处 置 
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两 利 









































会 注意 到 密度 差异 不 是 那么 强 ， 以 至 于 完全 证 明了 分 裂 ( 然 而 ， 
LE 的 )。 由 于 该 区 域 非常 密集 且 与 近邻 分 离 ， 因此 单个 聚 类 可 能 是 


区 分 样本 是 几乎 不 太 可 能 的 (大 多 数 靠近 分 离线 的 样本 













































































上 K-means 更 不 具 侵 略 性 且 显 示 更 好 的 折 课 效果。 相反 ， 











第 二 个 重 闪 区 域 ( 右 下 角 )。 这 是 因为 K-means 将 质心 放置 





























在 非常 接近 录 些 实际 样本 的 位 置 。 寿 














E 这 两 种 情况 下 ， 算 法 需要 在 0 和 4 之 间 创 建 几乎 水 平 

















的 分 隔 ， 和 否则 无 法 对 区 域 进行 分 割 。 这 种 行为 对 于 基于 标准 球 的 所 有 方法 都 是 通用 的 ， 并 
且 在 这 种 特定 情况 下 ， 这 是 极其 复杂 的 几何 形状 的 正常 结果 《许多 相 邻 点 具有 不 同 的 标签 )。 
因此 ,我 们 可 以 得 出 结论 ，K-medoids 对 异常 值 更 健壮 ， 在 避免 意外 的 分 离 方面 比 K-means 





























表现 更 好 。 另 一 方面 ， 当 志 


















































E 没 有 异常 值 的 非常 密集 的 区 域 中 工作 时 ， 这 两 种 算法 (特别 是 























当 采 用 同样 的 度量 时 〉 是 等 效 的 。 作 为 练习 ， 我 建议 大 家 使 用 其 他 指标 (包括 余弦 距离 ) 


并 比较 结果 。 
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4 









































有 时 数据 集 太 大 而 无 法 放 入 内 存 中 ， 或 者 样本 是 通过 通道 流 式 地 传输 ， 并 在 不 同 的 时 









































间 步 长 接收 。 在 这 种 情况 下 ， 之 前 讨论 的 算法 都 不 能 使 用 ， 因 为 它们 都 假定 在 第 一 步 的 时 














候 就 获取 到 全 部 的 数据 集 。 出 于 这 个 





多 实际 过 程 中 实施 。 














原因 ， 一 些 联机 的 替代 方案 被 提出 ， 并 且 目 前 正在 许 





Nn 











3.0.] Mini-batch K-means 


Mini-batch K-means 





























法 是 标 疹 











E K-means 的 扩展 ， 但 由 于 不 能 对 所 有 样本 计算 质心 ， 

















因此 有 必要 包含 一 个 额外 的 步 又， 该 步骤 负责 在 现 有 聚 类 不 再 有 效 时 重新 分 配 样本 。 特 别 
地 ，Mini-batch K-means 不 是 计算 全 局 平均 值 ， 而 是 与 流 平 均值 一 起 使 用 。 收 到 批 次 后 ， 
算法 会 计算 部 分 均值 并 确定 质心 的 位 置 。 但 是 ， 并 不 是 所 有 的 聚 类 都 有 相同 数量 的 分 配 ， 
因此 算法 必须 决定 是 等 待 还 是 重新 分 配 样 本 。 
















































































通过 一 个 非常 低 效 的 流 式 处 理 可 以 立即 理解 这 一 概念 ， 该 流 式 处 理 开 始 发 送 属于 半 个 
空间 的 所 有 样本 ， 并 且 仪 包含 属于 互补 半 个 空间 的 几 个 点 。 由 于 只 类 的 数量 是 固定 的 ， 该 
算法 将 开始 优化 ， 同 时 只 考虑 一 个 子 区 域 。 让 我 们 假设 一 个 质心 被 放置 在 一 个 属于 互补 
空间 的 少数 样本 的 球 中 心 。 如 果 越 来 越 多 的 批 次 继续 向 密集 区 域 添加 点 ， 那 么 算法 可 以 











合理 地 丢弃 孤立 的 质心 并 











































































































新 分 配 样本 。 但 是 ， 如 果 进 程 开 始 发 送 属于 互补 的 半 个 空间 
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的 点 时 ， 算 法 必须 准备 好 将 它们 分 配给 最 合适 的 聚 类 《〈 即 算法 必须 将 其 


白 区 域 中 )。 











该 方法 通常 基于 称 为 重新 分 配 比率 a 的 参数 。 当 a 较 小 时 ， 介 













































































要 避免 过 于 快速 变化 的 算法 在 每 次 批 处 理 后 重新 分 配 样本 。 通 常 ， 


低 计算 成 本 的 次 优 解 ， 而 后 者 可 能 变 得 非常 类 似 于 在 每 个 批 次 处 理 后 
的 标准 K-means。 考 虑 到 这 种 场景 通常 与 实时 过 程 相关 ， 我 们 一 般 不 会 对 
且 非 常 精确 的 解决 方 















































Hm 
[Rh 


但 是 ， 


如 这 个 过 程 是 











否 纯粹 的 随机 ? 样本 是 独立 的 
繁 ? )。 此 外 ， 我 们 必须 考虑 聚 类 的 数据 量 〈 即 批 次 大 小 ， 这 是 一 个 非常 
然 还 有 可 以 配置 的 硬件 。 一 般 来 说 ， 我 们 可 以 说 
K-means 产生 的 结果 与 标准 K-means 相当 ， 具 有 低 内 存 需 求 和 高 计 入 





不 是 一 个 可 控 的 超 参 数 ， 

































































































































































他 质心 放置 在 空 





法 将 在 重新 分 配 样本 之 
前 等 待 较 长 的 时 间 ， 而 较 大 的 值 会 加 速 该 过 程 。 当 然 ， 我 们 希望 避免 这 两 种 极端 情况 。 换 
句 话说 ， 我 们 需要 避免 一 种 在 做 出 决策 之 前 需要 许多 样本 的 过 于 静态 的 算法 ， 而 同时 又 需 
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mh 
Wh 














第 一 种 情况 产生 上 共有 较 
新 应 用 于 流 数据 集 














需要 高 计算 成 本 


案 感 兴趣 ， 而 是 对 在 收集 新 数据 时 得 到 很 好 的 近似 值 感 兴 趣 。 

















新 分 配 比率 的 选择 必须 考虑 每 种 情况 来 评估 ， 包 括 流 式 过 程 的 合理 预测 〈 例 
吗 ? 在 特定 时 间 范 围 内 茶 些 样本 是 否 更 频 

















要 的 因素 )， 当 


E 明 当 批 次 大 小 不 是 太 小 时 ，Mini-batch 
































lml 
Wh 























因为 它 取 决 于 外 部 资源 )， 且 相应 地 选择 

相反 ， 当 从 真实 数据 生成 过 程 中 对 批 次 进行 均匀 采样 时 ， 重 新 
太 重 要 的 参数 且 影响 较 低 。 实 际 上 ， 在 这 些 情况 下 ， 批 次 大 小 通常 是 
因素 。 如 果 它 足够 大 ， 导 









































复杂 度 〔 但 是 这 常常 
EE 新 分 配 比率 。 

分 配 比 率 成 为 了 一 个 不 
:良好 结果 的 主要 影响 
b 么 算法 可 以 立即 确定 质心 的 最 可 能 位 置 ， 随 后 的 批 次 不 能 显著 地 

















改变 这 种 配置 《从 而 减少 了 对 连续 重新 分 配 的 需求 )。 当 然 ， 在 联机 场景 中 ， 我 们 很 难 确 定 
数据 生成 过 程 的 结构 ， 因 此 通常 只 能 假设 批 次 (如 果 不 是 太 小 ) 包含 每 个 独特 区 域 的 足够 
代表 。 数 据 科 学 家 的 主要 任务 就 是 通过 收集 足够 的 样本 来 执行 完整 的 K-means， 并 与 








Mini-batch K-means 








(具有 相同 的 重新 分 配 比率 ) 的 情况 并 不 奇怪 。 考 虑 到 该 入 
现象 可 以 理解 ， 所 以 有 时 较 大 的 批 次 可 能 导致 错误 的 配置 。 但 该 配置 具有 更 多 的 代表 ， 
此 重新 分 配 的 概率 较 低 〈 即 算法 更 快 但 不 太 准 确 )。 相 反 ， 在 相同 的 情况 下 ， 因 为 频繁 地 
新 分 配 ， 较 小 的 批 次 可 以 强制 算法 执行 更 多 人 迭代， 有 共有 更 准确 的 最 终 配 置 。 由 于 定义 通 














城 团 土 
































用 的 经 验 法 则 3 


不 容易 ， 





3.6.2 BIRCH 











BIRCH 入 














法 具有 比 Mini-batch K-means 稍微 复杂 的 动态 ， 最 















































进行 性 能 比较 来 验证 这 一 假设 。 观 察 到 较 小 批 次 产生 较 好 的 最 终结 果 

























































































因此 一 般 的 建议 是 在 做 出 决定 前 检查 不 同 








的 值 。 


法 并 不 会 立即 重新 分 配 样本 ， 这 
























































后 部 分 采用 的 一 种 方法 


























(层次 聚 类 )， 我 们 将 在 第 4 章 介绍 。 对 于 我 们 而 言 ， 最 重要 的 部 分 是 数据 准备 阶段 。 该 阶 
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段 基于 称 为 聚 类 或 特征 -特性 树 (Characteristic-Feature Tree，CF-Tree) 的 特定 树 结构 。 


给 定 一 个 数据 集 X， 树 的 每 个 节点 都 由 





3 个 元 素 组 成 : 








CF = 











特征 元 素 分 别 是 属于 节点 的 样本 数 
后 的 原因 很 明显 ， 但 是 现在 让 我 们 



































wl 














将 注意 力 集中 在 树 的 结构 ， 以 及 在 尝试 3 























的 聚 类 ， 


如 图 3-15 所 示 。 


插入 新 的 元 素 。CF-Tree 的 所 有 终端 节点 都 是 必须 合并 的 实际 子 聚 类 ， 














yD 
了 J 


、 所 有 样本 总 和 以 及 了 





方 范 数 总 和 。 这 一 选择 背 
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(mB Dll) (Ws Dla) 
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(wen) 











图 3-15 


















































图 中 的 这 些 点 表示 指向 子 节点 的 指针 。 由 此 可 见 ， 
有 子 节 点 《CF pi) 的 指针 一 起 存储 的 ， 而 终端 节点 是 纪 
们 必须 考虑 男 外 两 个 因素 。 第 一 个 称 为 分 支 因 子 3， 第 二 个 称 为 阅 值 7。] 








所 | 












































CF 每 次 更 新 是 增加 的 : 








庙 节 点 最 多 可 包含 B 个 元 组 。 该 策略 则 在 通 
于 主 内 存 的 流 式 处 理 过 程 的 性 能 最 大 化 。 

现在 让 我 们 考虑 一 个 需要 插入 的 新 样本 羡 。 乔 
=a/m， 因 此 xi 沿 着 树 传播 到 达 终 端 CEF〈 子 聚 类 ) 


























(ms Bla) 








有 二进制 分 区 的 简单 CF-Tree 示例 


F 衡 高 度 时 如 何 
以 此 来 获取 所 需 数 量 








每 个 非 终 端的 节点 是 与 指向 它 的 所 



































2 易 至 
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E 粹 的 CE。 为 了 讨论 所 
比 外 ， 每 个 非 终 
过 减少 存储 的 数据 量 和 计算 次 数 ， 使 得 仅 依赖 


E 解 CF; 3 (1;,0;,b)) 的 质 心 只 是 
， 其 中 距离 dQ;, pw) 是 最 小 的 。 此 时 ， 


Fi 入 策略 ， 我 
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但 是 ， 如 果 不 控制 ， 树 很 
个 附加 步骤 。 一 旦 CF 确定 
因子 ， 都 分 配 一 个 新 的 块 并 且 
上 BIRCH 会 执行 一 个 额外 的 步骤 来 检查 所 有 子 聚 类 之 间 的 差异 〈 这 一 概 








于 分 支 
的 Gj; 除外 )， 








因 贞 




















容易 变 得 不 平衡 ， 从 而 导致 性 
后 ,就 计算 更 新 的 半径 无论 是 
原始 的 CF 保持 不 变 。 








全 已 
月 
不 
口 












































括 
>7T 以 及 CF 的 数量 是 
于 这 个 新 的 块 几乎 完全 是 2 














法 执行 
不 
Ej 


员 失 。 因 此 ， 该 入 
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P< 
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念 将 在 第 4 章 里 讲解 得 更 加 清楚 。 但 是 ， 读 者 可 以 考虑 属于 两 个 不 同 子 
E 离 )。 最 不 相似 的 一 对 被 分 成 了 两 个 部 分 ， 其 
的 高 度 紧 凑 性 并 加 速 了 最 后 的 步 又 。 
I 总 数 减 少 到 所 需要 的 值 。 
为 我 们 可 以 立即 将 这 些 分 段 标识 为 连续 与 合并 。 本 章 不 会 详 旨 











均 8 
了 子 取 类 
子 隧 类 ， 直 于 
容易 执行 此 操作 ， 因 
这 一 阶段 ， 但 这 3 

使 当 数 量 与 所 需 和 







































































一 部 分 被 移入 了 新 的 块 。 这 种 选择 保证 
事实 上 ， 涉 及 实际 


了 > 
聚 类 


的 点 之 间 的 平 











了 漆 


了 全 了 
肥大 


Tn 女 口 





阶段 的 算法 





因 





























不 难 想象 。 所 有 终端 的 CF 被 合并 到 更 大 的 块 中 


反 ， 该 方法 可 以 很 轻易 地 管理 大 量 的 聚 类 mw， 而 当 n。 壬 





L 配 时 也 可 以 停 1 因此 ， 


小 时 > 


上 该 过 程 )。 



































实 上 ， 正 如 我 1 
精度 ， 并 且 它 
联机 场景 下 使 
细 粒 度 分 
始 选项 。 




















]， 因 此 B 





























割 的 联机 过 程 ， 





门 在 示例 中 所 看 的 那样 ， 其 精度 通常 低 于 
的 最 优 使 用 需要 准确 


够 在 几 次 迭代 后 校正 聚 类 )， 从 而 产生 次 优 结 


而 在 所 有 其 他 情况 下 , 通常 最 好 选择 Mini-batch K-means 作为 初 























使 用 Mi 











此 ， 如 果 之 前 已 经 最 小 化 了 总 差异 ， 则 我 们 更 











讨论 
到 确定 单个 聚 类 《〈 即 
与 Mini-batch K-means 相 
该 方法 不 是 非常 有 效 。 事 
ni-batch K-means 所 达到 的 














二 二 








了 x 
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地 选择 分 支 因 子 和 阔 值 。1 


于 该 算法 的 主要 目的 是 在 





























后 可 能 变 得 无 
果 。 因 此 ， 
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和 了 在 某 些 批 次 处 
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上 7 












































3.6.3 Mini-batch K-means 与 BIRCH 的 比较 


在 这 个 示例 中 , 我 们 想 要 用 一 个 包 














种 算法 的 性 能 进行 比较 ( 














效 (而 Mini-batch K-means 
BIRCH 主要 用 于 需要 非常 

















含 分 割 为 8 个 斑点 的 2000 个 样本 的 二 维 数据 集 将 两 











由 于 目的 是 分 析 ， 我 们 也 使 用 了 基本 和 


from sklearn.datasets import make blobs 


nb clusters = 8 


nb_samples = 2000 


X Y = make blobs(n samples=nb samples, 
cluster std=0.25, 


random state=100) 

















centers=nb clusters, 





center box=[-1. 


n features=2, 


Dy 15 Shuffle=Tue, 





器 











集 〈 已 经 随机 处 理 以 删除 流 式 处 理 
































用 于 比较 Mini-batch K-means 和 BIRCH 的 二 维 数据 
中 的 任何 关联 ) 如 图 3-16 所 示 。 
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图 3-16 用 于 比较 Mini-batch K-means 和 BIRCH 的 二 维 数据 集 








在 执行 联机 聚 类 前 ， 评 估 标 准 KK-means 的 调整 后 的 兰 德 分 数 是 有 帮助 的 ， 如 下 所 示 : 


from sklearn.cluster import KMeans 








km = KMeans (n clusters=nb clusters, random state=1000) 
Y pred km = km.fit predict (x) 


print('Adjusted Rand score: {}'.format (adjusted rand score (Y，Y pred km))) 


代码 块 的 输出 如 下 所 示 : 


Adjusted Rand score: 0.8232109771787882 





一 < 


考虑 到 数据 集 的 结构 〈 没 有 种 陷 )， 我 们 可 以 合理 地 假设 该 值 代表 联机 过 程 的 基准 。 
我 们 现在 可 以 用 reassigment ratio=0.001、threshold=0.2 和 branching factor=350 来 实例 化 
类 MiniBatchKMeans 和 Birch。 这 些 参数 值 是 在 研究 后 选择 的 ， 但 我 建议 大 家 使 用 不 同 的 配 
置 来 重复 这 个 例子 ， 比 较 结果 。 在 这 两 种 情况 下 ， 我 们 假设 批 次 大 小 为 50 个 样本 ， 如 下 所 示 : 


from sklearn.cluster import, MiniBatchKMeans, Birch 











batch size = 50 


mbkm = MiniBatchKMeans (n clusters=nb clusters, batch size=batch size, 
reassignment ratio=0.001, random state=1000) 
birch = Birch(n clusters=nb clusters, threshold=0.2, branching factor=350) 





该 示例 的 目的 是 使 用 方法 partial_fit0 以 增 量 方式 训练 两 个 模型 ， 并 考虑 到 每 个 步骤 之 
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前 处 理 的 数据 总 量 来 评估 调整 后 的 兰 德 分 数 ， 如 下 所 示 : 











from sklearn.metrics import adjusted rand score 


scores mbkm = [] 
scores birch = [] 


for i in range(0, nb samples, batch size): 
X batch, Y batch = X[i:i + batch size], Y[i:i + batch sizel] 
mbkm.partial fit (X batch) 
birch.partial fit(X batch) 
scores mbkm.append(adjusted rand score(Y[:i + batch size], mbkm. 
predict (Xx[:i + batch sizel]))) 
scores birch.append(adjusted rand score(Y[:i + batch size], birch. 
predict (Xx[:i + batch size]))) 
print('Adjusted Rand score Mini-Batch K-Means: {}'.format (adjusted rand_ 








scorel(Y, Y pred mbkm))) 
print('Adjusted Rand Score BIRCH: {}'.format (adjusted rand scorel(Y, Y_ 
pred pirch) )) 


代码 段 的 输出 包含 整个 数据 集 的 调整 后 的 兰 德 分 数 : 


Adjusted Rand Score Mini-Batch K-Means: 0.814244790452388 
Adjusted Rand score BIRCH: 0.767304858161472 





正如 预期 的 那样 ， 当 所 有 样本 都 经 过 处 理 后 Mini-batch K-means 几乎 达到 基准 ， 而 
BIRCH 的 性 能 稍 差 一 些 。 为 了 更 好 地 理解 这 个 行为 ， 让 我 们 将 调整 后 的 兰 德 分 数 增 量 作为 
批 次 的 函数 ， 如 图 3-17 所 示 。 
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图 3-17 调整 后 的 兰 德 分 数 增 量 作为 批 次 的 函数 样本 数量 ) 
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正如 你 所 看 到 的 ，Mini-batch K-means 很 快 达到 最 大 值 , 所 有 后 续 振 荡 都 是 由 于 重新 分 
配 引起 的 。 相 反 地 ，BIRCH 的 性 能 总 是 较 差 是 有 负面 趋势 。 造 成 这 种 差异 的 主要 原因 是 策 
略 不 同 。 事实 上 ，Mini-batch K-means 可 以 在 几 个 批 次 后 修正 质心 的 初始 猜想 ， 并 且 重 新 分 





































































































配 并 不 会 显著 地 更 改 配置 。 另 一 方面 ，BIRCH 执行 的 合并 次 数 受 样本 数量 的 影响 。 
起 初 , Mini-batch K-means 和 BIRCH 性 能 差异 并 不 是 很 大 ， 因 为 CF-Tree 中 的 子 聚 类 数 















































量 不 是 很 大 因此， 聚合 更 加 一 致 )， 但 经 过 几 个 批 次 后 ，BIRCH 必须 聚合 越 来 越 多 的 子 聚 

















类 以 便 获取 所 需 的 最 终 聚 类 数量 。 这 种 情况 ， 加 上 流 式样 本 的 数量 的 增加 ， 驱 动 算法 重新 排 
列 树 , 经 常 导致 稳定 性 的 损失 。 此 外 , 数据 有 一 些 重 登 , 可 以 通过 对 称 方法 更 容易 地 管理 ( 实 













































































际 上 ， 即 使 分 配 错误 ， 质 心 也 可 以 达到 它们 的 最 终 位 


置 )， 而 分 层 方法 (如 BIRCH 采用 的 方 









































法 ) 更 能 够 找到 所 有 的 子 区 域 ， 但 在 将 子 聚 类 与 最 小 








更 容易 出 错 。 这 个 例子 证 实 了 Mini-bach K-means 通常 作为 第 一 选择 是 可 取 的 ， 并 且 只 有 在 性 


























分 离合 并 时 ， 或 者 更 粮 的 是 在 重 营 时 ， 









































能 不 符合 预期 时 〔 通 过 仔细 选择 参数 ) 才 应 该 选择 BRICH。 我 建议 大 家 使 用 大 量 的 所 需 聚 类 重 














复 该 示例 (例如 nb_clusters=20 和 center_box=[ 一 10.5,10.5])。 有 可 能 看 至 

















| 在 这 种 情况 下 保持 所 


























有 其 他 参数 不 变 ) 通过 Mini-batch K-means 执行 的 重 分 配 减 慢 了 收敛 ， 最终 调整 后 的 兰 德 分 数 
更 差 ， 而 BRICH 立即 达到 最 佳 值 (几乎 等 于 标准 K-means 所 达到 的 值 )， 并 且 不 再 受 样本 数 


























量 的 影响 。 





3.7 总 结 














在 本 章 中 ， 我 介绍 了 一 些 可 用 于 解决 非 凸 问题 的 最 重要 的 聚 类 算法 。 谱 聚 类 是 一 种 非 
常 流行 的 技术 ， 可 以 将 数据 集 投影 到 新 的 空间 ， 将 凹面 几何 变 为 凸 面 几何 ， 并 且 K-means 





























等 标准 算法 可 以 轻松 地 分 割 这 些 数据 。 

















相反 , 均值 漂移 和 DBSCAN 会 分 析 数 据 集 的 密度 并 尝试 将 其 拆 分 ,以 便 将 所 有 密集 和 
连接 的 区 域 合 并 在 一 起 以 组 合成 聚 类 。 特 别 地 ，DBSCAN 在 非常 不 规则 的 情况 中 很 有 效 ， 
因为 它 是 基于 连接 的 本 地 最 近邻 集合 ， 直 到 分 离 度 超过 预定 义 的 阔 值 为 止 。 通 过 这 种 方式 ， 
该 算法 可 以 解决 许多 特定 的 聚 类 问题 ， 唯 一 的 缺点 是 它 还 会 产生 一 组 无 法 自动 分 配给 现 有 

















































































































聚 类 的 噪声 点 。 在 基于 工作 缺勤 数据 集 的 示例 中 ， 我 们 已 经 展示 了 如 何 选择 超 参 数 以 便 获 
得 具有 最 小 噪声 点 数 、 可 接受 的 轮廓 或 Calinski-Harabasz 分 数 所 需 的 聚 类 数量 。 














在 最 后 一 部 分 ， 我 们 分 析 了 K-medoids 作为 K-means 的 替代 方案 ， 它 对 于 蜡 常 值 也 更 
可 靠 。 该 算法 不 能 用 于 解决 非 凸 问题 ， 但 是 比 K-means 更 有 效 ， 因 为 它 不 是 选择 实际 均值 























作为 质心 ， 而 是 仅 依 赖 数据 集 ， 并 且 聚 类 中 心 〈 称 为 medoid) 是 示例 样本 。 此 外 ， 该 算法 








没有 严格 遵循 欧 氏 度量 ， 因 此 它 可 以 充分 利用 替代 昌 












































E 离 函数 的 潜力 。 最 后 一 个 主题 涉及 两 
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个 联机 聚 类 算法 (Mini-batch K-means 和 BIRCH)， 当 数据 集 太 大 且 无 法 放 入 内 存 或 数据 在 
长 时 间 范 围 内 以 流 式 传输 时 ， 可 以 使 用 这 














在 第 4 章 中 ， 








我 们 将 要 分 析 一 个 非常 


























文 两 种 算法 。 
重要 的 聚 类 算法 系列 ， 这 些 算 法 可 以 输出 完整 的 




















层次 结构 ， 人 允许 我 们 观察 完整 的 聚合 过 程 ， 并 选择 最 有 用 和 最 一 致 的 最 终 配 置 。 


3.8 ”问题 

















1. 半月 形 的 数据 集 是 凸 聚 类 吗 ? 














2. 二 维 数 志 


























四 集 由 两 个 半月 形 的 数据 集 组 成 ， 第 二 个 完全 包含 在 第 一 个 的 凹陷 中 ,， 哪 种 
内 核 可 以 轻易 地 分 离 这 两 个 聚 类 《〈 使 用 











说 聚 类 ) ? 


坦 薄 灾 








3. 在 应 用 s= 1.0 的 DBSCAN 算法 后 ， 我 们 发 现 有 太 多 的 噪声 点 。 我 们 应 该 期 望 修正 





2E=0.1 四 ? 














4. K-medoids 基于 欧 氏 度量 ， 正 确 吗 ? 


5. DBSCAN 对 数据 集 的 几何 





6. 数据 集 包 








那 我 们 可 以 使 用 Mini-batch K-means 通过 
， 聚 类 的 标准 差 等 于 1.0。 在 应 月 











形态 非常 敏感 ， 正 确 吗 ? 








包含 了 1000 万 个 样本 ， 可 以 使 用 K-means 通过 大 型 计算 机 轻松 进行 聚 类 























和 文 种 聚 类 配置 是 稳定 的 吗 ? 

















过 小 型 计算 机 实现 吗 ? 





有 了 噪声 N(0,0.005) 后 ，80% 的 原始 分 配 被 改变 了 。 我 
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U 40 
机油 四 轴 轴 罗 加 吕 轴 中田 顺 四 时 


在 本 章 中 ， 我 们 将 从 与 数据 集 等 效 的 单个 聚 类 《分裂 方 法 ) 或 多 个 聚 类 开始 ， 讨 论 层 
次 聚 类 的 概念 ， 这 是 一 种 强大 且 广 泛 的 技术 ， 用 于 生成 完整 的 聚 类 配置 层次 结构 。 聚 类 等 
于 样本 数量 凝聚 法 )， 当 需要 一 次 性 分 析 整 个 分 组 过 程 以 便 理解 如 何 将 较 小 的 聚 类 合并 为 
较 大 的 聚 类 时 ， 此 方法 特别 有 用 。 

本 章 将 着 重 讨论 以 下 主题 。 


。 层次 聚 类 策略 〈 凝 聚 和 分 裂 )。 























































































































量 和 连接 方法 。 
。 树 状 图 及 其 解释 。 











ED 
| 
型 
洒 
ln 




















, 
。 凝聚 聚 类 。 


。 同 表 型 相关 性 系数 作为 一 种 性 能 指标 。 
。 连通 性 约束 。 


4.1 技术 要 求 

















本 章 中 的 代码 需求 如 下 。 
。 Python 3.5+《〈 强 烈 推荐 Anaconda 发 行 版 )。 
2 





m SciPy 0.19+。 
@ NumPy 1.10+。 
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m SClklt-learn 0.20+。 


m pandas 0.22+。 


m Matplotlib 2.0+。 


m Seaborn 0.9+。 





数据 集 可 以 通过 UCI 数据 集 获 得 ， 除 了 在 加 载 阶段 添加 列 名 外 ， 不 需要 任何 预 处 理 。 
b 套 的 代码 包 获 得 。 




















示例 代码 可 在 本 书本 














4.2” 聚 类 层次 结构 




















在 前 几 章 中 ， 我 们 分 析 了 聚 类 算法 ， 其 中 输出 的 是 基于 预定 义 的 聚 类 数量 如 
精确 基础 几何 结果 的 单个 分 段 。 另 一 方面 ， 层 次 聚 类 生成 一 系列 聚 类 配置 ， 这 些 配置 可 以 


























或 参数 集 、 














排列 在 树 状 结构 中 。 特 别 地 ， 我 们 假设 有 一 个 包含 n 个 样本 的 数据 集 义 : 








X= 人 


ey a m 
‘,X,} where x, eR 


凝聚 算法 首先 将 每 个 样本 分 配给 一 个 聚 类 C;， 然 后 在 每 个 步 又 中 合并 两 个 聚 类 ， 直 到 








[L 








E 成 一 个 最 终 聚 类 《对 应 于 妈 0): 
(Co CC 一 (Ci,C2»° ,OC ? 


在 前 面 的 式 子 中 ， 聚 类 C; 和 Cr 合并 为 C:， 因 此 在 第 二 步 中 获得 n-1 个 聚 类 。 该 过 程 
将 继续 进行 ， 直 到 剩余 的 两 个 聚 类 合并 为 包含 整个 数据 集 的 单个 块 。 而 分 裂 算 法 《最初 
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C, 


2- 


Cj Co, C1) 全 (四 






























































Kaufman 和 Roussew 提出 ， 称 为 DIANA 算法 ) 操作 方向 相反 ， 从 了 对 开始 ， 并 以 每 个 聚 类 
包含 单个 样本 的 分 段 为 结束 : 




















(之 (Ch 全 (CC 











Ci 全 …(CuC uC)) 


j+13 














在 这 两 种 情况 下 ， 结 果 都 是 以 层次 结构 的 形式 出 现 的 ， 其 中 每 个 级 别 是 通过 在 前 一 级 



































别 执行 合并 或 拆 分 操作 而 获得 的 。 复 杂 度 是 两 种 算法 之 间 的 主要 区 别 ， 因 为 分 裂 聚 类 复杂 
度 相 对 更 高 。 实 际 上 ， 合 并 / 拆 分 的 决定 是 通过 考虑 所 有 可 能 的 组 合并 通过 选择 最 合适 的 组 
合 〈 根 据 特定 标准 ) 来 做 出 的 。 例 如 在 比较 第 一 步 时 ， 需 要 考虑 指数 复杂 性 ， 很 明显 在 所 







































































佳 分 割 更 容易 。 





有 可 能 的 组 合 《〈 在 分 裂 场景 中 ) 上 







































































找到 最 合适 的 几 个 样本 《〈 在 凝聚 场景 中 ) 比 找到 工 的 最 

















虽然 最 终结 果 几 乎 相同 ， 但 分 裂 算 法 的 计算 复杂 度 要 高 得 多 ， 所 以 一 般 来 说 ， 我 们 没 
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有 特别 的 理由 选择 这 种 方法 。 因 此 ， 在 本 书 中 ， 我 们 将 仅 讨论 凝聚 聚 类 〈 假 设 所 有 概念 都 
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立即 适用 于 分 裂 算 法 )。 我 鼓励 读者 始终 考虑 整个 层次 结构 ， 即 使 大 多 数 实现 例如 
scikit-learn) 都 需要 指定 所 需 的 聚 类 数量 。 事 实 上 ， 在 实际 应 用 程序 中 ， 我 们 最 好 在 达到 目 
标 后 停止 进程 ， 而 不 是 计算 整个 树 。 但 是 ， 此 步骤 是 分 析 阶 段 的 一 个 重要 部 分 (特别 是 当 
未 明确 定义 聚 类 数量 时 )， 我 们 将 演示 如 何 可 视 化 树 并 为 每 个 具体 问题 做 出 最 合理 的 决策 。 











































































































正如 在 其 他 算法 中 所 见 ， 为 了 执行 聚合 ， 我 们 首先 需要 定义 一 个 表示 样本 之 间 差 异 的 
E 离 度量 。 我 们 已 经 分 析 了 许多 ， 但 在 这 种 情况 下 ， 开 始 考虑 通用 的 闵可夫 斯 基 距 离 (用 
参数 p 表示 ) 是 有 帮助 的 : 

































































1 
去 .过 一 (0D 一 ( 及 
| 0 站 
k 


两 种 特定 情况 对 应 于 p = 2 和 p = 1。 当 p = 2 时， 我 们 得 到 标准 的 欧 氏 距离 (相当 于 
也 范 数 ); 





二 
网 全 ,元 )= | > (如 2 xz) dl 


大 
当 p= 1 时 ， 我 们 获得 曼哈顿 或 城市 街区 距离 〈 相 当 于 Z 范 数 ): 


人 大 (Kk 
dW,x,)= > |x ; Xj | 直 | 元 Xj 上 
大 


























这 些 距 离 之 间 的 主要 差异 在 第 2 章 中 进行 了 讨论 。 在 本 章 中 , 引入 余弦 距离 是 有 用 的 ， 
虽然 这 不 是 距离 度量 (从 数学 的 角度 来 看 ), 但 是 当 样本 之 间 的 区 分 必须 取决 于 它们 形成 的 
角度 时 ， 这 就 非常 有 用 了 : 















































Tx |x lbllx ll cosGC22) 
| lz; ll | lx; |l, 


余弦 距离 的 应 用 非常 特殊 , 例如 自然 语言 处 理 (Natural Language Processing, NLP)， 
因此 ， 它 不 是 常见 的 选择 。 但 是 ， 我 建议 读者 使 用 一 些 样 本 向 量 检查 其 属性 (例如 (0,1)、 
《10) 和 (0.5,0.5)， 因 为 它 可 以 解决 许多 现实 问题 (例如 在 Word2vec 模型 中 ， 通 过 检查 两 
个 词 的 余弦 相似 性 ， 可 以 很 容易 地 评估 它们 的 相似 性 )。 一旦 定义 了 距离 度量 ,就 有 助 于 定 
义 近邻 矩阵 P: 


d.(%,X)) =1 





=1—cos(Xx,) 
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尸 是 对 称 的 ， 并 且 所 有 对 角 线 元 素 都 为 空 。 由 于 这 个 原因 ， 一 些 应 用 程序 〈 例 如 SciPy 
的 函数 pdist0) 生成 一 个 压缩 矩阵 已 ， 它 是 一 个 仅 包含 矩阵 的 上 三 角形 部 分 的 向 量 ， 因 此 
P, 的 第 i 行 第 j 列 元 素 对 应 于 d(xi, x))。 

下 一 步 是 定义 合并 策略 ， 在 这 种 情况 下 ， 称 为 链 (Linkage)。 连 锁 方法 的 目标 是 找 出 
在 层次 结构 的 每 个 级 别 合 并 为 单个 的 聚 类 。 因 此 ， 它 必须 与 表示 聚 类 的 通用 样本 集 一 起 使 
用 。 在 这 种 情况 下 ,假设 我 们 正在 分 析 一 对 聚 类 (Cs，C,)， 我 们 需要 找到 索引 a 还 是 5b 对 
应 将 要 合并 的 一 对 。 


4.3.1 单一 链 和 完整 链 


最 简单 的 方法 是 单一 链 (Single Linkage)〉 和 完整 链 (Complete Linkage)。 单 一 链 的 
定义 如 下 : 






































































































































Lge(0sb) = min{d(s,5) YHeC, RieC,} VC,,C, 


a J 


单一 链 选择 包含 最 接近 一 对 样本 的 耦合 〈 每 个 样本 属于 不 同 的 聚 类 )。 此 过 程 如 图 4-1 
所 示 ， 其 中 选择 Cl 和 C2 进行 合并 。 























Cs 











图 4-1 选择 Cl 和 C 进行 合并 的 单一 链 示例 

此 方法 的 主要 缺点 是 小 型 聚 类 和 非常 大 型 的 聚 类 可 能 同时 出 现 。 正 如 我 们 将 在 下 文中 
看 到 的 ， 单 一 链 可 以 将 异常 值 隔离 ， 直 到 存在 非常 高 的 差异 。 为 了 避免 这 个 问题 ， 我 们 可 
以 使 用 平均 链 和 Ward 链 。 
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相反 ， 完 整 链 定义 如 下 ; 


Lie 


(a,b)=max{d(x,x,) VieC, Hx,eC,} VC,,C, 


该 方法 的 目标 是 最 小 化 合并 聚 类 中 的 最 远 样 本 之 间 的 吕 
完整 链 示 例 ， 如 图 4-2 所 示 。 








E 离 。 有 一 个 已 选择 Cl 和 Cs3 的 





C2 
区 | 











4-2 选择 Cl 和 C3 进行 合并 的 完整 链 示例 
该 算法 选择 Cl 和 Cs 以 提 


聚 力 。 实 际 上 考虑 到 所 有 可 能 的 组 合 ， 很 容易 理解 完整 
链 会 导致 聚 类 密度 最 大 化 。 在 图 4.2 所 示 的 示例 中 ， 如 果 所 需 的 聚 类 数 为 2， 则 合并 Ci 和 
CG 或 Cs 和 Cs 将 产生 具有 较 低 内 察 力 的 最 终 配 置 ， 这 通常 


文通 常 是 不 希望 得 到 的 结果 。 
4.3.2 平均 链 


































































































另 一 种 常用 方 


方法 称 为 平均 链 (Average Linkage) 或 具有 算术 平均 值 的 非 加 权 对 组 方法 
(Unweighted Pair Group Method with Arithmetic Mean, UPGMA) 





1 2 
Lvwase (a,b) | C, | C, 之 Cn) vV C, 
这 个 方法 与 完整 链 非常 相似 ， 但 这 种 方法 考虑 的 是 所 有 可 能 的 对 〈C.，Co)， 且 每 个 聚 
类 的 平均 值 也 被 考虑 在 内 ， 目 标 是 最 小 化 聚 类 间 平 均 距 离 。 平 均 链 示例 如 图 4-3 所 示 

平均 链 在 生物 信息 用 〈 这 是 定义 层次 聚 类 的 主要 背景 )。 


要 背景 )。 它 的 数学 解释 是 
非常 重要 的 ， 我 建议 你 查看 原始 论文 (4 Statistical Method for Evaluating Systematic Relationships ) 
以 获取 更 多 详细 信息 。 


它 的 定义 如 下 : 
































学 应 用 中 特别 
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行 合 并 的 平均 链 示例 








示 的 点 是 平均 值 ) 进 
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图 4-3 选择 Cl 和 C，( 突 日 


4.3.3 Ward 链 








我 们 要 讨论 的 最 后 一 种 方法 称 为 Ward 链 (以 作者 的 名 字 命 名 ， 最 初 在 Journal of the 


American Statistical Association 的 Hierarchical Grouping to Optimize an Objective Function 中 





被 提出 )。 它 基于 欧 氏 距离 ， 正 式 定义 如 下 ; 
Tywa(a,b)= 2 2 | 元 -万 外 Y 


eC XieCp 





在 每 个 级 别 ，Ward 链 都 会 考虑 所 有 聚 类 ， 并 且 选 择 其 





C。 > C, 


两 个 聚 类 ， 目 的 是 最 小 化 平方 距 








离 的 总 和 。 该 过 程 本 身 与 平均 链 并 没有 太 大 差别 ， 并 且 可 以 证 明 合并 过 程 导 致 聚 类 的 方差 减 小 
《 即 增加 其 内 部 内 聚 力 )。 此 外 ，Ward 链 倾向 于 产生 包含 大 致 相同 数量 样本 的 聚 类 《〈 也 就 是 说 ， 
与 单一 链 相 比 ，Ward 的 方法 避免 了 小 聚 类 和 非常 大 的 聚 类 的 存在 )。Ward 链 是 一 种 流行 的 默 
认 选 择 ， 但 是 为 了 在 每 个 特定 的 环境 中 做 出 正确 的 选择 ， 我 们 有 必要 引入 树 状 图 的 概念 。 
























































4.4 树 状 图 分 析 
































树 状 图 (Dendrogram ) 是 一 种 树 形 数据 结构 ， 它 可 以 表示 由 凝聚 算法 或 分 裂 算法 产生 的 

















整个 聚 类 层次 结构 。 其 思想 是 将 样本 放 在 x 轴 上 ,将 差异 度 放 在 y 轴 上 。 每 当 合并 两 个 聚 类 时 
树 状 图 就 会 显示 出 一 个 对 应 于 其 发 生 的 差异 度 级 别 的 连接 。 因 此 ， 在 凝聚 方案 中 ， 树 状 图 总 






































从 所 有 被 视 为 聚 类 的 样本 开始 并 向 上 移动 〈 方 向 完全 是 常规 









































Pu 























的 )， 直 到 定义 单个 聚 类 为 止 。 
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4.4 树 状 
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出 于 教学 目的 ， 我 们 最 好 展示 与 非常 小 的 数据 集 和 世相 对 应 的 树 状 图 ， 但 是 我 们 要 讨论 











概念 都 可 以 应 用 于 任何 情况 。 然 而 ， 对 于 较 大 的 数据 集 ， 我 们 通 
以 便 以 更 紧 凌 的 形式 显示 整个 结构 。 


让 我 们 考虑 一 个 小 数据 集 闷 由 























(C-11) x (-1,1) 范围 内 : 


们 选择 了 Ward 链 的 


from sklearn.datasets import make blobs 


nb samples = 12 
nb centers = 4 


证 有 


币 而 





xX, 
centers=nb centers, random state=1000) 





树 状 图 ( 带 标签 ) 如 图 4-4 所 示 。 
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要 应 用 一 些 截 


Y = make blobs(n samples=nb samples, n features=2, center box=[-1, 





4 个 高 斯 分 布 生成 的 12 个 二 维 样 本 组 成 , 平均 向 量 在 





1], 


为 了 生成 树 状 图 (使 用 SciPy)， 我 们 首先 需要 创建 一 个 连锁 矩阵 。 在 这 种 情况 下 ， 我 




















from scipy.spatial.distance import pdist 
from scipy.cluster.hierarchy import linkage 





dm = pdist(X, metric='euclidean') 


Z method="'ward') 


linkage (dm, 


请 尊重 版 权 
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欧 氏 度量 (但 是 , 像 往 常 一 样 , 我 鼓励 大 家 使 用 不 同 的 配置 进行 分 析 ): 
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数组 dm 是 一 个 精简 的 成 对 距离 矩阵 , 而 Z 是 由 Ward 方法 生成 的 连锁 矩阵 (函数 linkage() 
需要 参数 method， 其 中 接受 值 single、complete、average 和 ward)。 此 时 ， 我 们 可 以 生成 并 绘 
制 树 状 图 《函数 dendrogram() 可 以 使 用 默认 或 提供 的 Matplotlib 的 axis 对 象 自动 绘制 图 表 ): 


import matplotlib.pyplot as plt 























from scipy.cluster.hierarchy import dendrogram 
fig, ax = plt.subplots (figsize=(12, 8)) 
d = dendrogram(Z, show leaf counts=True, leaf font size=14, ax=ax) 


ax.set xlabel('Samples', fontsize=14) 
ax.set yticks (np.arange (0, 6, 0.25)) 


plt.show() 


对 应 的 树 状 图 如 图 4-5 所 示 。 











Samples 

图 4-5 ”应 用 于 数据 集 的 Ward 连接 距离 法 相对 应 的 树 状 图 
如 图 4-5 所 述 , x 轴 表 示 最 小 化 交叉 连接 风险 的 样本 ,而 y 轴 显 示 的 是 差异 度 级 别 。 现 

在 让 我 们 从 下 到 上 分 析 图 表 。 初 始 状态 对 应 于 被 视 为 独立 聚 类 的 所 有 样本 《因此 差异 度 为 
0)。 向 上 移动 ， 我 们 开始 观察 第 一 次 合并 。 特 别 地 ， 当 差异 度 约 为 0.35 时 ， 合 并 样品 1 和 3。 
第 二 次 合并 是 样本 0 和 9 被 合并 , 其 差异 度 略 低 于 0.5。 该 过 程 一 直 持 续 到 创建 单个 聚 
类 ， 此 时 差异 度 大 约 为 5.25。 现 在 让 我 们 在 差异 度 等 于 1.25 时 水 平 剖析 树 状 图 ， 查 看 基础 
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连接 ， 我 们 发 现 聚 类 结构 是 : {6}，1{7,5,8}，{0,9,4,10} 


因此 , 我 们 有 5 个 聚 类 ， 其 中 两 个 由 单个 样本 组 成 。 观 察 到 样本 6 和 1l 是 
的 样本 不 足 为 奇 ， 因 为 它们 离 其 他 的 样本 很 远 。4 个 不 同 的 级 别 下 的 聚 类 《只 有 包 






































样本 的 聚 类 用 圆圈 标记 )， 如 图 4-6 所 示 。 
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，{11},，{2,1,3}。 





池 
ll 
n> 问 
> 
他 灶 














Level 0.5 (10 clusters) Level 1.25 (5 clusters) 四 Level 3.0 (3 clusters) Level 3.5 (2 clusters) 














很 容易 理解 ， 








的 聚 类 。 左 边 一 个 也 保留 在 下 一 个 切口 
产生 单个 聚 类 。 这 个 过 程 本 身 很 简单 ， 不 需要 特别 
第 一 个 是 树 状 图 结构 本 身 回 有 的 。 与 其 他 方法 不 同 的 是 ， 层 次 聚 类 允许 观察 整个 聚 类 



































聚集 开始 于 选择 最 相似 的 聚 类 /样本 ， 然 后 是 通过 添加 邻近 样本 来 进行 处 理 ， 
直到 到 达 树 的 根部 。 在 这 个 例子 中 ， 在 相似 度 等 于 2.0 的 情况 下 ， 已 经 检测 到 3 个 明确 定义 
FP， 而 右边 的 两 个 (明显 更 接近 ) 被 选择 用 于 合并 以 
的 解释 ， 但 有 两 个 重要 的 考虑 因素 。 





























图 4-6 在 不 同 级 别 切 割 树 状 图 生成 的 聚 类 〈Ward 链 ) 































































































树 ， 当 需要 通过 增加 差异 度 来 显示 过 程 如 何 发 展 时 ， 这 样 的 特征 非常 有 用 。 例 如 产品 推荐 























旋 用 程序 无 法 提供 有 关 代 表 

































































解 合并 过 程 的 结构 和 发 展 。 
事实 上 ， 通 过 观察 聚 类 是 如 何 合并 的 ， 我 们 可 以 深入 了 解 底层 的 几何 结构 ， 并 且 还 可 

















以 发 现 哪些 聚 类 可 能 被 视 为 较 大 聚 类 的 一 部 分 。 
个 小 聚 类 {L3}。 问 题 是 “通过 增加 差异 度 可 以 将 哪些 样本 添加 到 此 聚 类 中 ? ”可 以 立即 用 


{? 回答 。 当 然 ， 














决 ， 但 是 对 于 高 维 数据 集 ， 如 果 没 有 树 状 图 的 支持 ， 观 察 可 能 会 变 得 困难 。 


























j 户 的 所 需 聚 类 数量 的 任何 信息 ， 但 执行 管理 层 可 能 有 兴趣 了 

















在 我 们 的 示例 中 ， 在 0.5 级 时 ， 我 们 有 一 























在 这 种 情况 下 ， 这 是 一 个 微不足道 的 问题 ,我 们 可 以 通过 查看 数据 图 来 解 





















































结果 表明 ，i 



































第 二 个 是 树 状 图 可 以 比较 不 同 连接 方法 的 行为 。 使 用 Ward 链 ， 第 一 次 合并 发 生 在 相当 低 
的 差异 度 ， 但 5 个 聚 类 和 3 个 聚 类 之 间 存 在 很 大 差距 。 
果 我 们 使 用 单一 链 (本 质 上 非常 不 同 ) 会 发 生 什么 ? 对 应 的 树 状 图 如 图 4-7 所 示 。 

















这 是 几何 和 合并 策略 的 结果 。 例 如 如 





























支 树 状 图 是 不 对 称 的 ， 并 且 聚 类 通常 与 单个 样本 或 小 的 聚集 体 合并 。 从 厂 























边 开 始 ， 我 们 可 以 看 到 样本 {1H} 和 {6} 很 晚 才 合并 。 此 外 ， 当 必须 生成 最 终 的 单个 聚 类 时 ， 


样本 {6}《〈 可 能 是 异常 值 ) 以 最 
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高 的 差异 度 合 并 。 在 不 同 级 别 切割 树 状 图 生成 的 聚 类 的 过 程 
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如 图 4-8 所 示 。 


175 
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Samples 
图 4-7 应 用 于 数据 集 的 单一 链 对 应 的 树 状 图 














Level 0.5 (10 clusters) Level 0.75 (7 clusters) Level 1.0 (4 clusters) Level 1.5 (2 clusters) 
日 = 




















图 4-8 ”在 不 同 级 别 切割 树 状 图 生成 的 聚 类 (单一 链 》) 


从 图 4-8 可 以 看 出 ， 虽 然 Ward 链 生 成 了 包含 所 有 样本 的 两 个 聚 类 ， 但 是 单一 链 在 1.5 
级 通过 将 潜在 的 异常 值 保持 在 外 部 来 聚合 最 大 聚 类 。 因 此 ， 树 状 图 还 允许 定义 聚合 语义 ， 
这 在 心理 测量 学 和 社会 学 背景 中 非常 有 用 。 虽 然 Ward 链 以 一 种 与 其 他 对 称 算 法 非常 相似 的 
方式 进行 ， 但 单一 链 有 一 种 阶梯 式 循序 渐进 的 方式 ， 它 显示 了 对 增 量 构建 的 聚 类 的 偏好 ， 
从 而 避免 了 差异 度 方面 的 较 大 差距 。 

最 后 ， 值 得 注意 的 是 ， 虽 然 通过 在 3.0 级 切割 树 状 图 ，Ward 链 产生 了 潜在 的 最 佳 聚 类 
数 (3 个 )， 但 单一 链 从 未 达到 这 样 的 配置 〈 因 为 聚 类 {6} 仅 在 最 后 一 步 中 合并 )。 这 种 效果 
与 最 大 分 离 和 最 大 内 聚 的 双重 原则 密切 相关 。Ward 链 往 往 很 快 找到 最 内 聚 和 最 分 离 的 聚 
类 。 它 允许 当 差 异 度 间 隙 克服 预定 义 六 值 (当然 ， 当 达到 所 需 数量 的 聚 类 时 时 切割 树 状 
图 ， 而 其 他 链 需 要 不 同 的 方法 ， 有 时 会 产生 不 需要 的 最 终 配置 。 
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考虑 到 问题 的 性 质 ， 我 总 是 鼓励 读者 测试 所 有 的 链 方法 的 行为 ， 

















场景 例如 


是 增强 意识 ， 并 提高 过 程 语义 解释 能 力 的 最 佳 方 法 (这 是 任何 
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我 们 可 以 使 





























从 nn 个 不 同 的 聚 


个 聚 类 时 ， 属 于 聚 类 的 两 个 相 





考虑 到 4.4 节 中 显示 的 第 一 个 树 状 图 ， 样 本 {1} 和 {3} 先 被 合 3 








后 是 {11}。 上 出 








后 一 级 ， 合 3 











类 开始 ， 


前 面 章节 上 





剩余 的 样本 以 形成 单个 最 
DI， 样本 红 } 和 {3} 在 DZ 处 开始 属于 同一 

















最 终 得 到 一 个 等 同 了 














介绍 的 任何 方法 来 评估 层次 
我 们 可 以 采用 特定 措施 (不 需要 基本 事实 )。 给 定 一 个 邻近 入 
羽 E 和 总 是 被 分 配给 特定 分 层级 别 的 同一 聚 类 。 当 然 ， 务 必要 记 住 
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民 据 教育 水 平 、 入 住 率 和 收入 对 一 个 国家 的 人 口 进行 细 分 ) 














联 汶 |, 
来 类 


E 阵 PP 和 连接 工 ， 








:于 


开 找 出 适 
A 
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的 最 























合 某 些 示例 





过 程 的 基本 目 

















性 能 ， 但 在 此 特定 
一 对 样本 19 
， 在 凝聚 的 情况 下 ， 我 们 














标 )。 





情 


况 下 ， 


F 和 的 聚 类 。 此 外 ， 当 两 个 合并 的 聚 类 变 成 单 


本 将 始终 属于 同一 变 大 的 聚 类 ， 












































区 站 





























直到 该 过 程 结束 。 


; 然后 添加 样本 {2}， 最 








EF 时 ， 整 个 聚 类 与 另 一 个 大 聚 类 合并 (包含 样本 {0}，{9}，1{4}，1{10})。 在 最 
终 聚 类 。 因 出 ? 命名 差异 度 级 别 DLo, DLi, 这 
而 {2} 和 二} 则 出 现在 DZ 的 同一 个 聚 类 中 。 


此 时 , 我 们 可 以 将 DL;y 定 义 为 x 和 x 首次 属于 同一 聚 类 的 差异 度 级 别 , 并 且 在 以 下 (n x 
n) 和 矩阵 中 表示 为 CP 的 同 表 型 矩阵 (Cophenetic Matrix ): 
Ch, =[LDL,] 








换 句 话说 ，CP; 元 素 是 观察 同一 聚 类 
是 x 入 之 间 的 距离 度量 ， 
所 有 对 角 元 素 都 为 空 )。 特别 地 , 我 们 对 它们 的 相关 性 感 兴趣 (在 -1 和 1 的 范围 内 标准 化 )。 
此 值 为 同 表 型 相关 性 系数 (Cophenetic Correlation Coefficient，CPC)， 表 示 PP 和 CP 之 间 





的 一 致 性 水 平 ， 并 



































由 于 PP 和 CP 都 是 具有 





包括 对 角 线 3 














2 


n(n—1) (i,)) eTril(P) 





标准 化 平方 和 值 如 下 : 


n(n—l1) a 


2 





























因此 ，CP 类 似 于 P， 并 且 它 




















可 以 轻松 计算 ， 如 以 下 等 式 所 示 。 


























中 的 x; 和 忆 所 需 的 最 小 差异 。 我 们 可 以 证 明 CP; 
共有 与 邻近 矩阵 相同 的 属性 (例如 








零 对 角 元 素 的 (nxn) 对 称 和 矩阵 , 因此 可 以 仅 考虑 下 三 角 部 分 (不 


表示 为 Hi1(*))， 包 含 n(n-1)/2 个 值 。 因 
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PGi,)) CP= 


P(i,))° —P? H SCP= 











2 





n(n— Do eTril(CP) 





此 , 





n(n—l) 2 


均值 如 下 : 


CPQi,)) 


CPG, 7 -Cp 
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因此 ， 归 一 化 的 同 表 型 相关 性 系数 仅 等 于 以 下 内 容 : 


2 
_ n(n—1) 











2 cp Pls) “CPli,N)-— 人 CP 
VSP. SCP 

前 面 的 方程 基于 如 下 假设 : 如 果 3 个 样本 x;、xx 和 x 具有 诸如 dc zj)<dCc xy) 的 距离 ， 
合理 地 期 望 x; 入 将 在 x 和 x, 之 前 合并 在 同一 个 聚 类 中 ( 即 x; 和 x 合并 的 差异 度 低 于 xi 
和 xx, 合并 的 差异 度 )。 因 此 ，CPC 一 1 表示 链 生成 最 佳 层 次 结构 ， 这 反映 了 基础 几何 形状 。 
男 一 方面 ，CPC 一 -1 则 表示 完全 不 同 且 与 几何 体形 状 不 一 致 的 潜在 聚 类 结果 。 不 言 而 喻 ， 
给 定 一 个 问题 ， 我 们 的 目标 是 找到 一 个 最 大 化 CPC 的 指标 和 链 。 

考虑 到 第 3 章 中 描述 的 示例 , 我 们 可 以 使 用 SciPy 的 函数 cophenetO 计 算 对 应 于 不 
同 链 (假设 欧 氏 距离 ;的 同 表 型 矩阵 和 CPC。 此 函数 需要 连锁 矩阵 作为 第 一 个 参数 ， 
邻近 矩阵 作为 第 二 个 参数 ， 并 返回 同 表 型 箱 阵 和 CPC 变量 dm 是 先前 计算 的 压缩 邻近 
矩阵): 


from scipy.cluster.hierarchy import linkage, cophenet 


CPC 
























































































































































cpc, cp = cophenet (linkage (dm, method='ward'), dm) 
print ('CPC Ward\'s linkage: {:.3f}'.format (cpc)) 








cpc, cp = cophenet (linkage (dm, method='single'), dm) 
print ('CPC Single linkage: {:.3f}'.format (cpc)) 
cpc, cp = cophenet (linkage (dm, method='complete'), dm) 








print ('CPC Complete linkage: {:.3f}'.format (cpc)) 























cpc, cp = cophenet (linkage (dm, method='average'), dm) 

















print ('CPC Average linkage: {:.3f}'.format (cpc)) 








此 代码 段 的 输出 如 下 所 示 : 


CPC Ward's linkage: 0.775 
CPC Single linkage: 0.771 
CPC Complete linkage: 0.779 
CPC Average linkage: 0.794 




















这 些 值 非常 接近 ， 表 明 所 有 关联 都 产生 了 相当 不 错 的 结果 即使 由 于 存在 两 个 异常 什 
而 不 是 最 优 的 )。 但 是 ， 如 果 我 们 需要 选择 一 种 方法 ， 那 么 平均 链 是 最 准确 的 ， 应 优先 于 其 
他 方法 (如 果 没 有 特定 原因 需要 跳 过 它 )。 
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司 表 型 相关 性 系数 是 层次 聚 类 特有 的 评估 指标 ， 它 通常 提供 可 靠 的 结果 。 但 是 ， 当 几 
何 图 形 更 复杂 时 ，CPC 值 可 能 会 误导 并 导致 次 优 配置 。 出 于 这 个 原因 ， 我 建议 使 用 其 他 指 
标 《〈 例 如 轮廓 分 数 或 调整 后 的 兰 德 分 数 )， 以 便 仔细 检查 性 能 并 做 出 最 合适 的 选择 。 


4.6 ”水 处 理 厂 数 据 集 的 凝聚 肾 类 



























































现在 让 我 们 考虑 一 个 更 详细 的 问题 , 关于 一 个 更 大 的 数据 集 (下 载 说 明 在 本 章 4.1 节 提 
供 )， 其 中 包含 527 个 样本 ， 用 38 个 化 学 和 物理 变量 描述 了 水 处 理 厂 的 状态 。 正 如 作者 
(Bejar、Cortes 和 Poch) 所 述 ， 该 域 的 结构 不 好 ， 需 要 仔细 分 析 。 与 此 同时 ， 我 们 的 目标 
是 通过 不 可 知 论 的 方法 找到 最 佳 聚 类 。 换 名 话说 ， 我 们 不 会 考虑 语义 标注 过 程 〈 这 需要 和 领 
域 专家 )， 而 只 考虑 数据 集 的 几何 结构 和 凝聚 算法 发 现 的 关系 。 

下 载 完 后 ，CSV 文件 〈 称 为 water-treatment.data) 可 以 使 用 pandas 加 载 〈 当 然 ， 必 须 
更 改 术 语 <DATA_PATH> 以 指向 文件 的 确切 位 置 )。 第 一 列 是 与 特定 工厂 相关 的 索引 ， 而 所 
有 其 他 值 都 是 数字 ， 可 以 转换 为 float 64。 缺 失 值 用 “? ”字符 表示 。 由 于 我 们 没有 任何 其 
他 信息 ， 每 个 属性 只 用 平均 值 进行 设置 : 
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import pandas as pd 


data path = '<DATA PATH>/water-treatment.data' 





df = pd.read csv(data path, header=None, index col=0, 
na values='?') .astype (np.float64) 
df.fillnal(df.mean(), inplace=True) 


























由 于 单个 变量 的 大 小 不 同 〈 我 建议 大 家 使 用 DataFrame 上 的 函数 describe0 检 查 此 语句 )， 
因此 最 好 在 范围 (-1,1〉 中 对 它们 进行 标准 化 ， 从 而 保留 原始 方差 : 






































from sklearn.preprocessing import StandardScaler 


ss = StandardScaler (with std=False) 
sdf = ss.fit transform(df) 


























此 时 像 往 常 一 样 ， 我 们 可 以 使 用 t-SNE 算法 将 数据 集 投影 到 二 维 空间 : 


from sklearn.manifold import TSNE 








tsne = TSNE (n components=2, perplexity=10, random state=1000) 
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data tsne = tsne.fit transform(sdf) 


df tsne = pd.DataFrame (data tsne columns=['x', 'y'], index=df.index) 
dff = pd.concat ([df, df tsne], axis=1) 


水 处 理 厂 数据 集 的 tSNE 图 如 图 4-9 所 示 。 
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4-9 ”水 处 理 厂 数据 集 的 tSNE 图 


该 图 显示 了 一 个 潜在 的 非 凸 几何 体 ， 其 中 许多 小 岛 〈 密 集 区域 ) 被 空间 隔 开 。 但 是 ， 
如 果 没 有 任何 域 信息 ， 就 很 难 确定 哪些 广 点 可 以 被 视 为 同一 聚 类 的 一 部 分 。 我 们 可 以 决定 
施加 的 唯一 伪 约 束 《〈 考 虑 到 所 有 工厂 都 以 类 似 的 方式 操作 ) 是 具有 中 等 或 少量 的 聚 类 。 
此 ， 假 设 欧 氏 距 离 并 使 用 scikit-learn 的 AgglomerativeClustering 类 ， 我 们 可 以 计算 基于 所 
有 链 以 及 4、6、8 和 10 个 聚 类 下 的 同 表 型 相关 性 和 轮廓 分 数 : 

































































import numpy as np 


from sklearn.cluster import AgglomerativeClustering 
from sklearn.metrics import silhouette score 


from scipy.spatial.distance import pdist 

from scipy.cluster.hierarchy import linkage, cophenet 
nb clusters = [4, 6, 8, 10] 

linkages = ['single', 'complete', ‘'ward', 'average'] 
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cpcs = np.zeros (shape=(len(linkages), len(nb clusters) ) ) 
silhouette scores = np.zeros (shape=(len(linkages), len(nb clusters))) 





for i, 1 in enumerate (linkages): 
for j, nbc in enumerate (nb clusters): 
dm = pdist(sdf, metric='minkowski', p=2) 
2 = linkage (dm, method=1) 
cpc, _ = cophenet (Z, dm) 
Ces[E; TJ] = pe 


ag = AgglomerativeClustering(n clusters=nbc, affinity='euclidean', 
linkage=1) 

Y pred = ag.fit predict (sdf) 

sls = silhouette score(sdf, Y pred, random state=1000) 


silhouette scores[i, j] = sls 











基于 不 同 数目 聚 类 和 4 种 链 方法 的 同 表 型 相关 性 和 轮廓 分 数 如 图 4-10 所 示 。 
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性 〈 左 ) 和 轮廓 分 数 〈 右 ) 





4-10 基于 不 同 数目 聚 类 和 4 种 链 方法 的 同 表 型 相关 


要 考虑 的 第 一 个 因素 是 ， 同 表 型 相关 性 对 于 完整 链 和 平均 链 是 合理 可 接受 的 ， 而 对 于 
单一 链 来 说 太 低 了 。 对 于 轮廓 分 数 ， 单 一 链 和 4 个 聚 类 实现 了 最 大 值 〈 约 0.6)。 该 结果 表 
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明 ， 即 使 分 层 算法 产 9 


中 的 内 部 问题 等 。 人 
我 


考虑 到 数据 集 的 维 数 和 非 凸 


此 时 ,我 们 还 可 以 分 析 截 断 到 80 个 叶子 
和 p= 80 来 实现 )， 以 避免 间隔 太 小 而 难以 





图 














次 优 配置 ， 也 可 以 月 














1 45 节 所 述 ， 同 表 型 相关 性 有 时 
果 潜 在 育 类 的 理论 数量 为 4， 则 使 有 
完整 链 的 最 大 值 (以 及 单个 图 
需要 来 类 ? 


也 可 能 存在 一 些 特殊 情况 〈 不 了 





























表 的 最 小 值 )。 因 1 









































等 或 高 水 平 的 内 聚 力 分 离 4 个 区 域 。 

。 在 这 种 情况 下 ， 我 们 可 以 得 出 结论 ， 如 
让 选择 。 但 是 ， 所 有 其 他 图 表 显 示 对 应 于 
比 ， 我 们 要 回答 的 第 一 个 问题 是 : 我 们 是 否 
在 这 个 例子 中 ,假设 许多 工厂 以 非常 标准 的 方式 运行 (许多 样本 共享 差异 )， 但 
E 确 的 异常 值 )， 可 能 表现 出 非常 不 同 的 行为 。 










































































接受 或 拒绝 我 们 的 假设 ， 但 是 ， 由 于 这 是 一 个 通用 示例 ， 
门 可 以 决定 保留 8 个 具有 完整 链 的 聚 类 《轮廓 分 数 约 为 0.5)。 该 值 表示 存在 习 











于 创新 或 实验 过 程 缺 乏 资源 、 测 量 过 程 























Wp 





登 ， 但 是 






























































[Ol 


| 








| 
| 




















Samples (80 leaves) 


why 








性 ， 在 许多 现实 情况 下 是 可 以 接受 的 。 


的 树 状 图 (这 可 以 通过 设置 tucate mode = 'lastp' 
区 分 《但 你 可 以 删除 该 约束 并 提高 分 辨 率 )， 如 
















































































标准 和 完整 链 的 水 处 理 三 数据 集 的 树 状 图 









































并 不 是 同 质 的 。 在 该 过 程 开始 时 ， 差 异 度 增加 得 相当 缓慢 ， 但 
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在 大 约 差异 度 为 10000 后 ， 跳 跃 变 大 。 观 察 t-SNE 图 ， 我 们 可 以 理解 非 凸 性 对 非 

















常 大 的 聚 








类 具有 更 强 的 影响 ， 因 为 密度 降低 ， 所 以 差异 度 隐 式 地 增加 。 很 明显 ,非常 少量 的 聚 类 ( 例 

















如 1、2 或 3) 具有 非常 高 的 内 部 差异 和 相当 低 的 内 聚 力 。 


























此 外 ， 树 状 图 显示 在 约 17000 的 水 平 上 有 两 个 主要 的 不 均匀 聚合 ， 因 此 我 们 





























粗 粒 度 分 析 突 出 显示 主导 行为 《从 顶部 看 图 )， 而 次 要 行为 则 被 少数 - 














可 以 推断 


[三 使 用 。 特 别 地 ， 较 


小 的 组 非常 稳定 ， 因 为 它 将 以 大 约 50000 左右 的 级 别 被 合并 到 最 终 的 单个 聚 类 。 因 此 ， 我 
们 应 该 期 望 存 在 伪 异 常 值 ， 并 且 这 些 值 被 分 组 到 更 加 孤立 的 区 域 中 (t-SNE 图 也 


























AN 





过 














证 实 了 这 








切割 范围 为 4000 = 6000〈 对 应 于 大 约 8 个 聚 类 )， 较 大 的 块 比较 小 的 块 更 密集 。 换 名 
话说 ， 异 常 聚 类 将 包含 比 其 他 聚 类 少 得 多 的 样本 。 这 并 不 奇怪 ， 因 为 正如 在 4.4 





























论 的， 最 远 的 聚 类 通常 在 完整 链 的 后 期 被 合并 。 












































此 时 ， 我 们 终于 可 以 执行 聚 类 并 检查 结果 。scikit-learn 的 实现 不 是 计算 整个 
而 是 在 达到 所 需 聚 类 数 时 停止 进程 〈 除 非 参数 compute_full_tree 不 为 True): 





import pandas as pd 


from sklearn.cluster import AgglomerativeClustering 


ag = AgglomerativeClustering(n clusters=n, affinity='euclidean', 


'complete') 
Y pred = ag.fit predict (sdf) 


df pred = pd.Series(Y pred, name='Cluster', index=df.index) 





pdff = pd.concat ([dff, df pred], axis=1) 

















最 终结 果 如 图 4-12 所 示 。 


























































































































正如 预期 的 那样 ， 聚 类 是 不 均匀 的 ， 但 它们 与 几何 体 是 完全 
类 《例如 在 区 域 xe(-40,-20) 和 y> 60 中 ) 非常 小 并 且 它 们 很 可 能 包含 真正 的 异 
行为 与 其 他 大 多 数 样本 都 不 相同 。 我 们 不 打算 分 析 语 义 ， 因 为 问题 非常 具体 。 然 而 ， 我 们 
有 理由 认为 xE(-40,40) 和 yE(-40,-10) 区 域 中 的 大 聚 类 即使 是 非 


节 中 所 讨 


树 状 图 ， 


linkage= 


一 臻 的。 此外， 孤立 的 聚 

















凸 的 ， 也 代表 一 

















基线 。 相 反 ， 其 他 大 的 块 〈 在 该 聚 类 的 末端 ) 对 应 于 具有 特定 局 











性 或 行为 的 工 / 








性 或 行为 的 扩散 程度 足以 被 视 为 标准 的 蔡 代 实践 。 当 然 ， 正 如 育 

















用 所 提 到 的 ， 这 





























可 知 论 的 分 析 ， 应 该 有 助 于 理解 如 何 使 用 层次 聚 类 。 


























最 后 一 步 ， 我 们 希望 在 约 35000 的 差异 度 水 平 上 切割 树 状 图 〈 对 应 于 2 个 聚 类 )。 结 果 




















显示 如 图 4-13 所 示 。 
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个 合适 的 
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图 4-13 水 处 理 厂 数据 集 的 聚 类 结果 (2 个 聚 类 ) 
在 此 级 别 ， 树 状 图 显示 属于 聚 类 的 大 部 分 样本 和 剩余 的 较 小 块 。 现 在 我 们 知道 这 样 的 
次 要 区 域 对 应 于 xE(-40,10) 和 y>20。 同 样 ， 结 果 并 不 令 人 惊讶 ， 因 为 t-SNE 图 显示 这 些 
样本 是 y> 20*25 的 唯一 选择 (而 较 大 的 聚 类 ， 即 使 有 很 大 的 空白 区 域 , 也 几乎 涵盖 了 所 有 
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的 范围 )。 






































为 练习 ， 我 鼓励 读者 测试 














因此 ， 我 们 可 以 指出 ， 这 些 样本 代表 工厂 具有 的 极端 行为 ， 并 且 如 果 将 新 柱 
该 聚 类 ， 则 它 可 能 代表 的 是 非 标准 工厂 《假设 标准 工 三 的 行为 与 大 多 数 同类 工厂 相似 )。 作 





























4.7 连通 性 约束 














凝聚 层次 聚 类 的 一 个 重要 特征 是 可 以 包含 连接 约束 以 强制 合 3 


在 邻近 样本 之 间 有 很 强 关 系 的 环境 



































须 属 于 同一 个 聚 类 时 也 生 





Matrix), AE {0,1}” ": 





一 般 来 说 ，4 是 由 数据 集 图 形 导出 的 邻接 矩阵 (Adjacency Matrix)。 但 是 ， 邻 接 入 
E 何 方式 合并 。 连 接 和 矩阵 











其 他 数量 的 聚 类 和 不 同 的 链 方法 (特别 
的 )， 并 尝试 验证 或 拒绝 一 些 事先 假设 的 样本 《它们 没有 必要 在 现实 中 被 接受 )。 


很 常见 ， 或 者 在 我 们 知道 某 些 
常见 。 为 了 实现 这 一 目标 ， 我 们 需要 使 用 连接 矩阵 〈Connectivity 





4.7 连通 性 约束 
























































特定 样本 。 这 种 先 验 知识 
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本 分 配给 


是 单一 链 ， 这 是 非常 特殊 














样本 由 于 其 固有 属性 而 必 


























i 














[0] 其 他 




















. 如 果 雹 和 元 相连 接 

















一 重要 的 要 求 是 没有 孤立 的 样本 〈 即 没有 连接 )， 因 为 它们 无 法 以 























E 阵 唯 








于 以 下 聚集 不 影响 连接 两 个 合 3 








在 初始 合并 阶段 应 用 ， 并 强制 算法 聚合 指定 的 样本 。 岂 




















的 样本 或 聚 类 将 保持 合 ; 























为 了 理解 这 个 过 程 ， 
提取 的 50 个 二 维 点 : 














证 我 们 考虑 一 个 示例 数据 集 





~ 


from sklearn.datasets import make blobs 


nb _ samples 


50 
nb centers 8 














直到 进程 结束 )， 因 此 其 总 是 强制 执行 约束 。 
其 中 包含 从 8 个 双 变 量 高 斯 分 布 中 





X, Y = make blobs(n samples=nb samples, n features=2, center box=[-1, 


centers=nb centers, random state=1000) 














在 图 4-14 中 ， 我 们 看 到 样本 18 和 31 (xoE (-2,-1) 和 xi1E (1,2)) 非常 接近 ， 
不 希望 它们 被 合并 ， 因 为 样本 18 在 大 的 中 心 斑点 中 有 更 多 邻近 的 样本 ， 而 点 31 是 着 














连接 约束 数据 集 如 图 4-14 所 示 。 























并 的， 应 该 被 认为 是 自治 聚 类 。 我 们 还 希望 样本 33 形成 单个 聚 类 
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开光 





请 尊重 版 权 
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日 我 们 


分 天 














。 这 些 要 求 将 强制 外 








法 合 
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并 不 再 考虑 基础 几何 的 聚 类 《就 高 斯 分 布 而 言 )， 而 是 用 先 验 知识 。 
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4-14 连接 约束 数据 集 示例 


为 了 检查 聚 类 的 工作 原理 ， 现 在 让 我 们 使 用 欧 氏 距离 和 平均 链 来 生成 树 状 图 (截断 在 
20 个 叶子 ): 



































from scipy.spatial.distance import pdist 
from scipy.cluster.hierarchy import linkage, dendrogram 


dm = pdist(X, metric='euclidean') 








2 = linkage (dm, method='average') 
fig, ax = plt.subplots (figsize=(20, 10)) 
d = dendrogram(Zz, orientation='right', truncate mode='lastp', p=20, ax=ax) 


ax.set xlabel('Dissimilarity', fontsize=18) 
ax.set ylabel('Samples', fontsize=18) 


该 树 状 图 〈 从 右 到 左 ) 如 图 4-15 所 示 。 


正如 预期 的 那样 ， 样 本 18 和 31 被 立即 合并 ， 然 后 与 包含 2 个 样本 的 另 一 个 聚 类 聚合 
( 当 数 字 在 括号 之 间 时 ， 表 示 它 是 被 包含 在 更 多 样本 的 复合 块 )， 可 能 是 44 和 13。 样 本 33 
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也 被 合并 ， 因 此 它 不 会 保留 在 隔离 的 聚 类 中 。 为 了 确认 ， 让 我 们 用 n_clusters=8 执行 聚 类 : 








from sklearn.cluster import AgglomerativeClustering 


ag = AgglomerativeClustering(n clusters=8, affinity='euclidean', 


'average') 
Y_ pred = 


ag .fit predict (x) 













































































00 





图 4-15 


欧 氏 距离 也 


20 
Dissimilarity 





[平均 链 连接 约束 示例 的 树 状 图 





使 用 欧 氏 距离 和 平均 链 聚 类 的 数据 集 如 图 4-16 所 示 。 


Xl 
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图 4-16 使 用 欧 氏 距离 和 平均 链 聚 类 的 数据 集 
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Cluster 2 
Cluster 8 
Cluster 4 
Cluster 5 
Cluster 7 
Cluster 6 
Cluster 1 
Cluster 3 


linkage= 








的 层次 聚 类 
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结果 证 实 了 之 前 的 分 析 。 在 没有 约束 的 情况 下 ， 平 均 链 产生 与 基本 事实 兼容 的 合理 分 


区 (8 个 高 斯 分 布 )。 


























为 了 分 割 大 的 中 心 斑点 并 保持 所 需 的 聚 类 数 ， 算 法 也 必须 合并 白 立 的 








样本 ， 即 使 树 状 图 确认 它们 在 末尾 以 最 高 差异 度 级 别 合并 。 


为 了 施加 约束 





5 
密级 





pi 


























， 我 们 可 以 观察 到 基于 前 两 个 最 近邻 域 的 连接 矩阵 很 可 能 强制 聚合 属于 
区 域 的 所 有 样本 (考虑 到 相 邻 区 域 较 近 )， 并 最 终 保持 自治 聚 类 中 的 孤立 点 。 这 种 假设 
行为 的 原因 是 基于 平均 链 的 目标 (最 小 化 聚 类 间 的 平均 距离 )。 因 此 ， 在 施加 约束 之 后 ， 算 
法 更 容易 与 其 他 相 邻 聚 类 紧密 聚合 〈 记 住 4 具有 空 值 ， 但 是 在 与 两 个 最 近邻 域 相 对 应 的 位 
置 中 ) 并 且 使 最 远 ， 






























































点 保持 未 聚合 直到 差异 度 级 别 足 够 大 〈 产 生 非 常 不 均匀 的 聚 类 )。 








为 了 检查 我 们 的 假设 是 否 是 真 的 ， 让 我 们 使 用 scikit-learn 的 函数 kneighbors_graph0O 生 





成 连接 矩阵 ， 使 用 











from sklearn 
from sklearn 


n_neighbors=2 并 重新 聚合 数据 集 ， 并 设置 connectivity 约束 : 





.Cluster import AgglomerativeClustering 
.neighbors import kneighbors graph 


cma = kneighbors graph (X, n neighbors=2) 


ag = AgglomerativeClustering(n clusters=8, affinity='euclidean', linkage= 


'average', Conne 


ctivity=cma) 


Y pred = ag.fit predict (x) 


代码 段 的 图 形 输出 如 图 4-17 所 示 。 
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图 4-17 使 用 欧 氏 距离 和 平均 链 聚 类 并 使 用 连通 性 约束 的 数据 集 
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正如 预期 的 那样 ， 样 本 18 被 分 配 到 大 的 中 央 


























在 外 。 


由 于 这 个 过 程 是 





分 





屋 的 ， 所 以 施加 连接 约束 比分 离 约束 更 容易 。 事 实 上 ， 
以 在 初始 阶段 轻松 合并 ， 但 使 用 所 有 连接 方法 都 无 法 轻易 保证 在 最 终 合并 之 前 将 它们 排除 
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了 > 
聚 类 ， 


而 点 31 和 33 现在 已 被 隔离 。 当 然 ， 
然 单个 样本 可 








[ee 
EE 

















及 














当 需 要 复杂 约束 时 《给 定 昌 








E 离 和 链 )， 我 们 通常 需要 调整 罕 类 的 连接 矩阵 和 期 望 数量 。 




















当然 ， 如 果 使 用 特定 数量 的 
异 度 下 限 〈 即 合 3 





将 保持 有 效 )。 


不 能 期 望 得 到 这 个 结果 。 
但 是 ， 如 果 所 有 3 个 样本 的 合 3 
以 及 DL>2.0 的 所 有 配置 也 仍然 有 效 。 因 此 ， 如 果 我 们 从 5 个 聚 














则 对 于 m<30 个 
我 们 可 以 轻松 





异 度 级 别 。 我 鼓励 读者 使 用 
以 在 聚 类 过 程 之 后 被 轻松 验证 。 





闪 二 


/OA 一口 


4.8 


在 本 章 中 ， 我 们 提出 了 层次 聚 类 方法 ， 重 点 关注 


了 > 
聚 类 


也 增加 这 个 数字 ， 同 
他 数据 集 测试 该 方法 ， 并 尝试 定义 先前 的 约束 ， 这 些 约束 可 


聚 类 实现 期 望 的 结果 ， 还 需 使 用 更 大 的 值 来 实现 ， 直 到 到 达 差 


















































过 程 减少 聚 类 的 数量 ， 因 此 ， 如 果 差 异 度 足 够 大 ， 则 所 有 现 有 的 约束 都 
例如 3 个 样本 被 约束 为 属于 同一 个 聚 类 , 那么 在 初始 合并 阶段 之 后 我 们 通常 






































发 生 在 特定 差异 度 级 别 《〈 例 如 2.0 级 对 应 于 30 个 聚 类 )， 


类 开始 ， 




































































时 注意 上 共有 大 于 约束 所 施加 的 最 后 一 次 合并 相对 应 的 差 








e 子 耳 又 从 












































可 采用 的 不 同 算法 分裂 和 法 )。 











水 





我 们 还 讨论 了 用 于 发 现 哪些 聚 类 可 以 合并 或 拆 分 的 方法 〈 即 链 )。 特 别 地 ， 给 定 距离 度量 ， 




















我 们 分 析 了 4 





我 们 已 经 展示 了 如 何 构 建树 状 
然后 我 们 引入 了 一 利 


次 过 程 。 




















评估 分 层 算法 的 性 能 。 


' 链 的 行为 : 单 
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Fh 称 为 同 表 型 相关 性 的 1 


链 、 完 整 链 、 平 均 链 和 Ward 链 。 
以 及 如 何 分 析 它 ， 以 便 使 用 不 同 的 方法 来 理解 整个 层 
生 能 指标 ， 在 不 了 解 基本 事实 的 情况 下 











区 


























我 们 分 析 了 一 个 更 大 的 数据 集 (水 处 理 厂 的 数据 集 )， 定义 了 一 些 假 设 ， 并 使 用 前 面 讨 























































































































论 过 的 所 有 工具 对 它们 进行 了 验证 。 在 本 章 的 最 后 ， 我 们 讨论 了 连通 性 约束 的 概念 ， 它 允 
许 使 用 连接 和 矩阵 将 先 验 知识 引入 流程 。 

在 第 5 章 中 ， 我 们 将 介绍 软 聚 类 的 概念 ， 重 点 是 模糊 算法 和 两 个 非常 重要 的 高 斯 混合 模型 
4.9 问题 

1. 凝聚 方法 和 分 裂 方法 有 什么 区 别 ? 
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2 








给 定 两 个 聚 类 a: [(-1, -1D, (0, 0)] 和 b: [(1, 1), (1, 0)]， 思 考 一 下 欧 氏 距离 的 单一 链 和 





完整 链 的 联系 是 什么 ? 


3. 
4. 
5. 
6. 
7. 

















树 状 图 可 以 表示 给 定数 据 集 的 不 同 链 的 结果 。 正 确 吗 ? 

在 凝聚 聚 类 中 ， 树 状 图 的 底部 《初始 部 分 ) 包含 了 单个 聚 类 。 正 确 吗 ? 

凝聚 聚 类 中 树 状 图 的 了 轴 是 什么 意思 ? 

在 合并 较 小 的 聚 类 时 ， 差 异 度 会 降低 。 正 确 吗 ? 

同 表 型 矩阵 的 元 素 C(i, 站 报告 了 两 个 对 应 元 素 x; 入 第 一 次 出 现在 同一 聚 类 中 的 差 

































































异 度 。 正 确 吗 ? 


8. 




















连通 性 约束 的 主要 目的 是 什么 ? 
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央 作 加 国 限 因 邮 加 出 图 如 者 间 央 图 吉 国 








在 本 章 中 ,我 们 将 讨论 软 聚 类 的 概念 ， 它 允许 我 们 针对 定义 的 聚 类 配置 ， 获 取 数 据 集 每 个 
样本 的 隶属 程度 。 也 就 是 说 ， 从 0 到 100% 的 范围 ， 我 们 想 知 道 x; 属 于 聚 类 的 程度 。 如 果 极 值 
为 0， 这 意味 着 x 完全 位 于 聚 类 的 域外 部 ， 如 果 为 1 (100%)， 则 表示 羡 已 完全 分 配给 单个 聚 
类 。 所 有 中 间 值 意味 着 两 个 或 更 多 个 不 同 聚 类 的 部 分 域 。 因 此 ， 与 硬 聚 类 相反 ， 在 这 里 ， 我 们 
感 兴趣 的 不 是 固定 分 配 ， 而 是 具有 相同 概率 分 布 〈 或 概率 本 身 ) 属性 的 向 量 。 这 种 方法 可 以 更 
好 地 控制 边界 样本 ， 并 帮助 我 们 找 出 生成 过 程 的 适当 近似 值 ， 而 数据 集 则 可 在 该 过 程 被 绘制 。 


本 章 将 着 重 讨论 以 下 主题 。 


e Fuzzy c-means。 


























































































































































































































。 高 斯 混合 。 

。 用 AIC 和 BIC 作为 性 能 指标 。 
。 贝 叶 斯 高 斯 混合 (简介 )。 

。 生成 〈 半 监督 ) 高 斯 混合 。 


5.1 技术 要 求 





















































本 章 中 的 代码 需求 如 下 。 

。 Python 3.5+〔 强 烈 推 荐 Anaconda 发 行 版 )。 

。 库 。 
mn SciPy 0.19+。 
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@ NumPy 1.10+。 
m scikit-learn 0.20+。 
m scikit-fuzzy 0.2。 
m pandas 0.22+。 
m Matplotlib 2.0+。 
m seaborn 0.9+。 


示例 代码 可 在 本 书 配套 的 代码 包 中 找到 。 




















5.2 软 聚 类 


在 层次 聚 类 操作 中 分 析 的 所 有 算法 都 属于 硬 聚 类 方法 。 这 意味 着 始终 将 给 定 样本 分 配 
给 单个 聚 类 。 软 聚 类 则 旨 在 将 每 个 样本 x; 与 一 个 向 量 相 关联 ， 该 向 量 通 常 表示 x; 属 于 每 个 
聚 类 的 概率 : 






































c(%)= (p(X eC), pO EEC) PoECb) 
另外 ， 输 出 可 以 解释 为 隶属 向 量 : 
cE) = (Wi wa, Wi ), 同时 Dw, =1 








从 形式 上 讲 ， 两 个 解释 之 间 没 有 区 别 ， 但 在 通常 情况 下 ， 当 算法 没有 明确 地 基于 概率 
分 布 时 ， 我 们 将 采用 后 者 。 出 于 我 们 的 目的 ， 我 们 总 是 将 c(i) 与 概率 相关 联 。 通 过 这 种 方 
式 ， 我 们 鼓励 读者 思考 用 于 获取 数据 集 的 数据 生成 过 程 。 一 个 明显 的 例子 是 将 这 些 向 量 解 
释 为 与 构成 数据 生成 过 程 近似 值 的 特定 贡献 相关 的 概率 pgs。 例 如 使 用 概率 混合 ， 我 们 可 
以 定义 近似 值 pu 如 下 : 





































































































Paaia (x;) 党 p(X) > 2 wp,(%) 








因此 ,该 过 程 被 分 成 (独立 的 ) 分 量 的 加 权 和 ,并且 输 出 的 是 它们 各 自 x 的 概率 。 当 然 ， 
我 们 通常 期 望 每 个 样本 都 有 一 个 主要 的 组 成 部 分 ， 但 是 通过 这 种 方法 ， 我 们 可 以 对 所 有 边界 
点 有 一 个 重要 的 认识 ， 这 些 边界 点 可 以 分 配给 不 同 的 聚 类 。 出 于 这 个 原因 ， 当 输出 可 以 输入 
另 一 个 模型 〈 例 如 神经 网 络 ) 中 时 ， 软 聚 类 非常 有 用 ， 它 可 以 利用 整个 概率 向 量 。 例 如 推荐 
者 可 以 首先 使 用 软 聚 类 算法 对 用 户 进行 分 段 ， 然 后 处 理 这 些 向 量 ， 以 便 根 据 显 式 反 馈 找 到 更 
复杂 的 关系 。 一 个 常见 的 场景 包括 通过 问题 的 答案 进行 更 正 ,例如 “这 个 结果 与 你 相关 吗 ? ” 
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或 者 “你 想 看 到 更 多 这 样 的 结果 吗 ? ”由 于 答案 是 由 用 户 直 接 提供 的 ， 因 此 它们 可 以 用 于 监 
督 或 强化 学 习 模 型 ， 其 输入 基于 软 自 动 分 割 ( 例 如 基于 购买 历史 或 详细 页 面 视图 )。 用 这 种 
方式 ， 我 们 可 以 通过 更 改 原 始 分 配 《〈 由 于 不 同 聚 类 提供 的 大 量 贡献 ) 来 轻松 管理 边界 用 户 ， 
同时 建议 具有 强 隶 属 资格 〈 例 如 概率 接近 1) 的 其 他 用 户 提供 建议 的 概率 以 提高 其 回报 。 

我 们 现在 可 以 开始 讨论 Fuzzy c-means, 这 是 一 种 非常 灵活 的 算法 , 它 将 讨论 过 的 K-means 
概念 扩展 到 软 聚 类 应 用 中 。 
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5.3 Fuzzy c-means 



































我 们 接 下 来 提出 的 第 一 个 算法 是 基于 软 分 配 的 K-means 变 体 。Fuzzy c-means 源 自 模 糊 
集 的 概念 ， 模 糊 集 是 经 典 二 进 制 集 的 扩展 《〈 即 在 这 种 情况 下 ， 样 本 可 以 属于 单个 聚 类 )， 它 
是 基于 表示 整个 集合 不 同 区 域 的 不 同 子 集 的 登 加 而 得 到 的 集合 。 例 如 基于 某 些 用 户 年 龄 的 
集合 可 以 分 为 青年 、 中 年 和 老年 人 ， 其 与 3 个 不 同 〈 部 分 重 登 ) 的 年 龄 范围 相关 联 : 18 一 
35、28 一 60 和 >50。 因 此 ， 例 如 一 个 30 岁 的 用 户 在 不 同 划分 程度 上 既是 青年 又 是 中 年 人 《〈 考 
虑 边界 ， 实 际 上 是 边界 用 户 )。 有 关 这 些 类 型 集 和 所 有 相关 操作 的 更 多 详细 信息 ， 我 建议 阅读 
Concepts and Fuzzy Logic 一 书 。 为 了 达到 目的 ， 我 们 可 以 假设 一 个 数据 集 X， 包 含 m 个 样本 ， 
被 划分 为 个 重 登 聚 类 ， 以 便 每 个 样本 始终 与 每 个 聚 类 相关 联 ， 根 据 它 们 的 隶属 度 wy 〈 它 是 
一 个 介 于 0 和 1 之 间 的 值 )。 如 果 wj=0, 则 意味 着 x; 完 全 在 聚 类 C 之 外 , 而 相反 , 如 果 wj= 1， 
则 表示 对 聚 类 CG 的 硬 分 配 。 所 有 中 间 值 代表 部 分 隶属 。 当 然 ， 由 于 显而易见 的 原因 ， 样 本 的 
所 有 隶属 度 的 总 和 必须 归 一 化 为 1 (类 似 于 概率 分 布 )。 通 过 这 种 方式 ， 样 本 始终 属于 所 有 聚 
类 的 联合 ， 并 且 就 隶属 资格 而 言 ， 将 聚 类 拆 分 为 两 个 或 更 多 个 子 集 总 是 会 产生 一 致 的 结果 。 
该 算法 基于 广义 惯性 量 Sy 被 优化 : 
















































































































































































































































































在 前 面 的 公式 中 ，jw 是 聚 类 GC; 的 质心 ， 而 m(m>1) 是 重新 加 权 指 数 系数 。 当 m 守 1 时 ， 
权重 不 受 影响 。 对 于 较 大 的 值 ， 例 如 wjE (0,1)， 其 重要 性 按 比 例 降低 。 我 们 可 以 选择 这 样 
的 系数 来 比较 不 同 值 的 结果 和 期 望 模糊 度 的 水 平 。 实 际 上 ， 在 每 次 迭代 之 后 (完全 等 同 于 
K-means )， 使 用 以 下 公式 更 新 权重 : 
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二 
> Ee 
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[x -5,1 
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如 果 x; 接 近 质 心 jy， 则 总 和 接近 于 0， 并 且 权 重 增加 (当然 ， 为 了 避免 数值 不 稳定 性 
在 分 母 中 添加 一 个 小 常数 ， 这 样 它 永 远 不 会 等 于 0)。 当 m>> 1 时， 指数 变 得 接近 0， 并 
总 和 中 的 所 有 项 趋向 于 1。 这 意味 着 特定 聚 类 的 偏好 被 削弱 并 且 wj 守 1X 对 应 于 均匀 分 布 。 
因此 ， 较 大 的 m 意味 着 更 平滑 的 分 区 ， 不 同 的 分 配 之 间 没 有 明显 的 差异 《除非 样本 非常 接 
近 质 心 )， 而 当 m 守 1 时 ， 单 个 主导 权重 几乎 等 于 1， 其 他 权重 则 接近 0〈 即 分 配 很 难 )。 


质心 的 更 新 方式 类 似 于 Kmeans〈 换 句 话说 ， 即 目标 是 实现 最 大 分 离 和 最 大 内 聚 ): 






































































































































重复 该 过 程 直到 质心 和 权重 变 得 稳定 。 在 收敛 之 后 ， 使 用 特定 度量 来 评估 结果 ， 称 为 
归 一 化 Dunn 的 分 区 系数 (Dunn's Partitioning Coefficient)， 定 义 如 下 : 























可 以 看 出 ， 这 样 的 系数 值 在 0 和 1 之 间 。 当 Pc=:0 时 ， 则 wcs1MK， 这 意味 着 分 布 平 
滑 且 模糊 度 高 。 另 一 方面 ， 当 Pcs1 时 ， 则 wcs1， 表 示 几 乎 难以 分 配 ， 所 有 其 他 值 都 与 
模糊 度 成 正比 。 因 此 ， 在 给 定 任务 的 情况 下 ， 数 据 科学 家 可 以 立即 根据 所 需 的 结果 评估 算 
法 的 性 能 。 在 某 些 情况 下 , 硬 分 配 更 可 取 ， 因 此 Pc 可 被 视 为 在 切换 到 标准 K-means 之 前 要 
执行 的 检查 。 实 际 上 ， 当 Pc=1 (并 且 这 样 的 结果 是 预期 结果 〉 时 ， 再 使 用 Fuzzy c-means 
是 没有 意义 的 。 相 反 ， 小 于 1 的 值 (例如 Pc= 0.5) 会 告知 我 们 由 于 存在 许多 边界 样本 ， 可 
能 会 存在 非常 不 稳定 和 难以 执行 的 任务 。 
现在 ， 让 我 们 将 Fuzzy c-means 算法 应 用 于 scikit-learn 库 提供 的 简化 MNIST 数据 集 。 
算法 由 scikit-fuzzy 库 提 供 ， 该 库 实现 了 所 有 最 重要 的 模糊 逻辑 模型 。 第 一 步 就 是 加 载 和 
规范 化 样本 ， 如 下 所 示 : 


from sklearn.datasets import load digits 
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digits = load digits() 

Xx = digits['data'] / 255.0 

Y = digits['target'] 

数组 了 包含 1797 个 展 平 样本 ，xE 办“， 对 应 于 灰 度 8x8 的 图 像 (其 值 在 0 和 1 之 间 
归 一 化 )。 我们 想 要 分 析 不 同 m 系数 的 行为 (5 个 均值 在 1.05 和 1.5 之 间 ) 并 检查 样本 的 权 
重 〈 在 我 们 的 例子 中 ， 我 们 将 使 用 区 0])。 因 此 ， 我 们 调用 scikit-fuzzy 库 的 函数 cmeans0()， 
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设置 c=10( 聚 类 数量 ) 和 两 个 收敛 参数 ， 即 error=1e-6 和 maxiter=20000。 此 外 ， 出 于 可 重 
复 性 的 原因 ， 我们 还 将 设置 标准 随机 seed=1000。 输 入 数组 应 包含 样本 列 。 因 此 ， 我 们 需要 
对 其 进行 转 置 ， 如 下 所 示 : 

















from skfuzzy.cluster import cmeans 


] 
pcs = [] 


for m in np.linspace(1.05, 1.5, 5): 

fc W, , , , _, pc = cmeans(X.T, c=10, m=m, error=le-6, 
maxiter=20000, seed=1000) 

Ws.append (W) 

pcs.append (pc) 


前 面 的 代码 段 执行 不 同类 型 的 聚 类 ， 并 将 相应 的 权重 矩阵 天 和 分 区 系数 已 附加 到 两 
个 列表 中 。 在 分 析 特 定 配 置 之 前 ， 显 示 测 试 样本 (表示 数字 0) 的 最 终 权 重 〈 对 应 于 每 个 
数字 ) 是 有 帮助 的 ， 如 图 5-1 所 示 。 


m=1.05,Pc =0.96 m=1.1625.Pc =0.80 m=1275,Pc=0.58 m=1.3875,.Pc =0.24 m=15,Pc=0.10 
14 


8 
20 
人 
加 6 
8 
4 
6 
| 2 
2 
0 0 00 


0123456789 012345678 9 0123456789 0123456789 0123456789 


图 5-1 对 应 于 不 同 m 值 的 样本 XT0] 的 权重 值 ( 以 反 向 对 数 刻度 表示 ) 


由 于 极 值 往往 不 同 ， 我们 选择 使 用 反 向 对 数 刻度 ( 即 -log(woj) 而 不 是 wo)。 当 m= 1.05 
时 , Pc 为 0.96, 并 且 所 有 权重 (与 C? 对 应 的 权重 除外 ) 都 非常 小 (请 记 住 , 如 果 -log(w) = 30， 
则 w = e“”)。 这 样 的 配置 清楚 地 显示 了 具有 主要 成 分 (C,〉 的 硬 聚 类 。 图 5-1 中 后 三 个 图 
表 显 示 出 明显 的 优势 。 但 是 ， 当 m 增加 (和 Pec 减少) 时， 主要 和 次 要 分 量 之 间 的 差异 变 
得 越 来 越 小 。 此 效果 越 来 越 模糊 ， 在 m>1.38 时 达到 最 大 值 。 事 实 上 ， 当 m=1.5 时 ， 即 
使 Pc 为 0.10， 所 有 权重 也 几乎 相同 ， 并 且 测 试 样 本 不 能 轻易 地 分 配给 主导 聚 类 。 正 如 我 们 
之 前 讨论 过 的 ， 我 们 现在 知道 像 K-means 这 样 的 算法 很 容易 找到 硬 分 区 ， 因 为 平均 而 言 ， 
对 应 不 同 数字 的 样本 彼此 差异 很 大 ， 欧 氏 距 离 足 以 将 它们 分 配 到 正确 的 质心 。 在 这 个 例子 
中 ， 我 们 希望 保持 适度 的 模糊 性 ， 因 此 我 们 选择 m= 1.2 (对 应 Pe 为 0.73): 


ee 
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so 
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6 
5 
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二 
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fc, W, , , , pc= cmeans(X.T, c=10, m=1.2, error=le-6, maxiter=20000, 
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seed=1000) 
Mu = fc.reshape ((10, 8, 8)) 





数组 Mu 包含 的 质心 ， 如 图 5-2 所 示 。 


CEI EI CS EI 


图 5-2 m= 1.2 和 Pc 为 0.73 对 应 的 质心 



































如 你 所 见 ， 所 有 不 同 的 数字 都 已 经 被 选择 了 ， 并 且 如 预期 的 那样 ， 第 三 个 聚 类 《〈 由 C2 


表示 ) 对 应 于 数字 0。 现 在 ， 让 我 们 检查 与 0] 对 应 的 权重 (此 外 ， 克 被 转 置 ， 所 以 它们 
存储 在 研 :，0] 中 : 














下 

















Betht (WE OY 


丛 出 如 下 : 





[2.68474857e-05 9.14566391e-06 9.99579876e-01 7.56684450e-06 


1.52365944e-05 7.26653414e-06 3.66562441e-05 2.09198951e-05 
2.52320741e-04 4.41638611e-05] 
































即使 分 配 不 是 特别 困难 ， 聚 类 C, 的 主导 地 位 也 是 很 明显 的 。 第 二 个 潜在 分 配 是 Cs， 
对 应 于 数字 9( 比率 约 为 4000)。 这 样 的 结果 与 数字 的 形状 完全 一 致 ， 并 且 考 虑 到 最 大 权重 
与 第 二 个 权重 之 间 的 差异 。 但 是 在 这 里 很 明显 ， 即 使 使 用 Pcs*0.7$， 大 多 数 样 本 也 很 难 分 
配 ( 即 在 K-means 中 )。 为 了 检查 硬 分 配 的 性 能 (使 用 权重 矩阵 上 的 函数 argmax() 获 得 )， 
并 考虑 到 我 们 知道 基本 事实 ， 我 们 可 以 使 用 adjusted_rand_score， 如 下 所 示 : 























































































































from sklearn.metrics import adjusted rand score 
Y pred = np.argmax (W.T, axis=1) 


print (adjusted rand score(Y，Y pred)) 


代码 段 的 输出 如 下 所 示 : 





0.6574291419247339 








该 值 确认 了 大 多 数 样品 已 成 功 硬 分 配 。 作 为 补充 练习 ， 我 们 可 以 找到 权重 具有 最 小 标 
侍 差 的 样本 : 
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im = np.argmin (np.std(W.T, axis=1)) 


print (im) 
print (Y[im]) 
BELDt,WE. Em] 


丛 出 如 下 : 


414 
8 
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[0.09956437 0.05777962 0.19350572 0.01874303 0.15952518 0.04650815 
03059092416. 0:.129100.96, 03%17526108..0.:0.60.9197.3] 





样本 XI414] 代 表 一 个 数字 (8)， 如 图 5-3 所 示 。 
在 这 种 情况 下 ， 有 3 个 主要 聚 类 : Cs、C4 和 C7 
( 按 降序 排列 )。 不 幸 的 是 ,它们 都 不 对 应 于 与 Cs 相关 















































的 数字 8。 不 难 理解 ， 这 样 的 错误 主要 是 由 于 数字 下 
理 鸭 哺 形 ， 其 结果 更 类 似 于 9《〈 这 样 的 错误 分 类 也 可 
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9 阔 栈 台 
下 
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2 生 在 人 身上 )。 然 而 ， 低 标准 差 和 缺乏 明显 主要 成 。 
知 我 们 不 能 轻易 做 出 决定 ， 样 本 具有 属于 3 个 主 

聚 类 的 特征 。 更 复杂 的 监督 模型 可 以 轻松 避免 这 种 

误 ， 但 考虑 到 我 们 正在 进行 无 监督 分 析 ， 结 果 并 非 如 此 消极 ， 我 们 只 是 对 基 
估 。 我 建议 你 使 用 其 他 m 值 来 测试 结果 ， 并 尝试 找 4 
数字 8 中 的 大 多 数 被 软 分 配给 Cl 和 C， 因 此 ， 我 们 可 以 假设 相应 的 质心 编码 共享 
见 特征 ， 例 如 所 有 数字 8 和 数字 9)。 































































































到 5-3 ”样本 [41 和 的 图 解释 ， 对 应 于 
具有 最 小 标准 差 的 权重 向 量 






































本 
一 些 潜 在 的 组 合 规则 《也 就 是 说 ， 
2 












































现在 ， 我 们 可 以 讨论 高 斯 























5.4 高 斯 混合 


高 斯 混合 (Gaussian Mixture〉 是 最 著名 的 软 聚 类 方法 2 


以 被 认为 是 人 -means 之 父 ， 





折 混 合 的 概念 了 ， 这 是 一 种 使 用 非常 ) 














集 的 分 布 进行 建 模 ， 数 据 集 的 分 布 则 是 由 低 密 度 区 域 包围 的 密集 斑点 组 成 。 





泛 的 方法 ， 用 了 




















因为 它们 的 工作 方式 非常 相似 ， 











XiEX 和 kk 聚 类 (表示 为 高 斯 



































， 具 有 许多 特定 应 
但 与 该 算法 相反 ， 
折 分 布 )， 提 供 概率 向 量 [pocE CD, … 











, P(XiE CD]。 











。 它 可 
它 给 定 样本 








一 般 来 说 ， 如 果 数 据 集 对 已 经 从 数据 生成 过 程 pw 中 采样 ， 那 么 高 斯 混合 


以 下 假设 : 














J 上 > 十 
二 少 仁 
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pasa CE) ~ pW) = pN = NG IB 5)= Dw NG IB, 5) 


换 句 话说 ， 数 据 4 



































成 过 程 通过 多 元 高 斯 分 布 的 加 权 和 来 近似 。 这 种 分 布 的 概率 密度 函 


























数 如 下 : 
1 1- 1(s-n) 
N Xi, = 天. 2 7 7 
Pte 2rdet 之， 
每 个 多 元 高 斯 分 布 的 每 个 分 量 的 影响 都 取决 于 协 方差 矩阵 的 结构 。 二 元 高 斯 分 布 的 3 
种 可 能 的 协 方差 矩阵 《结果 可 以 很 容易 地 扩展 到 半 维 空间 )， 如 图 5-4 所 示 。 
加 oo? O12 a o? 0 . 2 2 oz 0 
= (2 | zs=(。 的 with al #03 z=( | 
i | a 
( |， A 
t 有 > 上 机 上 页 
| vi ) “a ~ 
图 5-4 ”完全 协 方差 ( 左 )、 对 角 协 方差 (中 ) 和 圆 形 /球形 协 方差 矩阵 〈 右 ) 
































从 现在 开始 ， 我 们 将 考虑 完全 协 方差 矩阵 的 情况 ， 该 矩阵 可 以 实现 最 大 的 表达 能 




















很 容易 理解 的 是 ， 当 这 档 
状 与 K-means 相同 (当然 ， 在 高 斯 混合 中 ， 
差 之 后 切割 高 


























的 分 布 完 全 对 称 “〈 即 协 方差 矩阵 是 


斯 )。 相 反 ， 当 协 方差 矩阵 不 是 对 角 或 具 








圆 形 或 球形 ) 时 ， 伪 聚 类 的 形 











不同 的 方差 时 ， 


工 


























《例如 在 双 变量 的 情况 下 ， 
































一 个 单 变 生 





的 高 斯 混合 示例 如 图 5-5 所 示 。 














个 变量 可 以 显示 比 另 
斯 混合 允许 我 们 计算 实际 概率 ， 而 不 是 测量 样本 x 和 





平均 向 量 妃 之 间 的 昌 








在 这 种 情况 下 ， 每 个 样本 在 每 个 高 斯 下 始终 

















t 有 非 空 概率 ， 其 影 





个 更 大 的 方差 )。 在 这 两 


向 由 其 


聚 类 没有 边界 ， 但 总 是 可 以 在 固定 数量 的 标准 








影响 不 再 是 对 称 的 
情况 下 ， 高 
E 离 〈 如 K-means)。 





























的 值 和 协 方差 








于 
是 
遍 





和 矩阵 确定 。 例 如 与 x 位置 对 应 的 点 2.5 既 可 以 
左 侧 的 点 影响 最 小 )。 正 如 本 章 开 头 所 述 ， 任 
Cargmax) 的 分 量 而 转换 为 硬 聚 类 算法 。 











上 














各 位 读者 将 很 快 了 解 到 ， 在 使 用 对 角 协 方差 和 





外 的 信息 (完全 被 K-means 丢弃 )， 可 以 在 进一步 
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于 中 间 的 高 斯 ， 也 可 以 
可 软 聚 类 算法 都 可 以 通过 选择 
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有 后 


E 阵 的 特定 情况 下 ，argmax 提 
的 处 理 步 骤 中 使 用 〈 也 就 是 说 ， 失 


于 右 侧 的 高 斯 (而 


最 大 影响 
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从 了 一 条 额 


E 荐 应 用 
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程序 可 以 提取 所 有 聚 类 的 主要 特征 ， 并 根据 相对 概率 对 其 进行 重新 加 权 )。 
Ee 
\ 
0 ES 
/ Xe 
SN 
2 SS \ 





图 5-5 单 变量 的 高 斯 混合 示例 








5.4.1 高 斯 混合 的 EM 算法 


完整 的 算法 (在 Mastering Machine Learning Algorithms 中 有 详细 描述 ) 比 K-means 稍 
微 复杂 一 点 ， 并 且 它 需要 更 深入 的 数学 知识 。 由 于 本 书 的 内 容 更 加 注重 实用 性 ， 因 此 在 这 
里 我 们 只 讨论 主要 步骤 ， 而 不 提供 算法 依据 。 


让 我 们 首先 考虑 包含 n 个 样本 的 数据 集 义 : 
X={%,T, ,D5,) where T eR” 


给 定 上 人 分布， 我们 需要 找到 权重 wj 和 每 个 高 斯 Li 马 ) 的 参数 ， 条 件 如 下 : 

















































































































最 后 一 个 条 件 对 于 保持 与 概率 定律 的 一 致 性 是 必要 的 。 如 果 我 们 将 所 有 参数 分 组 到 单 
个 集合 ，0;= (wi, ww, 驴 )， 则 可 以 定义 样本 x 在 第 j 个 高 斯 下 的 概 紊 ， 如 下 所 示 : 


p(w,710,) 


以 类 似 的 方式 , 我 们 可 以 引入 伯 努 利 分 布 zj = Ps 0) ~ B(p), 表示 第 j 个 高 斯 生成 样 
本 x 的 概率 。 换 名 话说， 给 定 一 个 样本 x，zj 等 于 1， 概 率 为 p( jlxis 9)， 否 则 为 0。 
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此 时 ， 我 们 可 以 计算 整个 数据 集 的 联合 对 数 似 然 ， 如 下 所 示 : 





n 天 n Kk 
wx,D -io TT | log p(%,,710,) 
i=] j=] i=] j=l 











在 前 面 的 公式 中 , 我 们 利用 了 指数 指标 表示 法 , 它 依赖 于 zj 只 能 是 0 或 1 的 这 一 事实 。 





因此 ， 当 zj=0 时 ， 这 意味 着 样本 x; 尚未 由 第 j 个 高 
( 即 叉 = 1)。 相 反 ， 当 zy= 1 时 ,该 项 等 于 x 和 第 j 个 高 斯 






































斯 生成 ， 并 且 该 乘积 中 的 对 应 项 变 为 1 
的 联合 概率 。 因 此 ， 假 设 每 个 过 E 筷 








独立 且 同 分 布 ， 则 联合 对 数 似 然 是 模型 已 生成 整个 数据 集 的 联合 概率 。 要 解决 的 问题 是 最 
大 似 然 估 计 ， 或 者 换 名 话说， 是 找到 最 大 化 L(0; 成 习 的 参数 。 但 是 ， 变 量 zj 没有 被 观察 到 























(或 潜在 )， 因 此 不 可 能 直接 最 大 化 似 然 ， 因 

解决 这 个 问题 的 最 有 效 方 法 是 采用 EM 
中 的 Maximum Likelihood from Incomplete 
完整 解释 超出 了 本 书 的 范围 ， 但 我 们 还 是 想 要 提供 主要 步 又。 我们 首 
























































为 我 们 不 知道 它们 的 值 。 















































法 (参见 Journal of the Royal Statistical Society 
Data via the EM Algorithm)。 虽 然 关 于 EM 算法 的 
































先 要 做 的 是 使 用 概率 


























链 规则 ， 以 便 将 先前 的 表达 式 转换 为 条 件 概率 的 总 和 《可 以 很 容易 地 对 其 进行 管理 ): 





n Kk n 大 
L(O;X,2)= > >,z, logp(%,j|0,)= >, 27, logp(x|j,0,)+z, logp(i|0,) 
i=] j=l i=] j=l 











这 两 个 概率 现在 很 简单 。 项 p(xi|j, 的 是 在 第 7 
在 第 7 个 高 斯 的 概率 ， 其 等 于 权重 w。 为 了 消除 潜在 的 变量 ，EM 算法 以 迭代 的 方式 进行 ， 
两 个 步骤 组 成 。 第 一 个 步骤 〈 称 为 期 望 步骤 ， 或 卫 步 又) 是 在 没有 潜在 变量 的 情况 下 计 
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| 厨 





























算 可 能 性 的 代理 。 如 果 我 们 将 整个 参数 集 指示 为 9, 在 迭 代 上 处 计算 的 同一 组 参数 表示 为 0,， 





我 们 可 以 计算 出 以 下 函数 : 





0(010)= Ezx.g [ZL(0;X,2Z)] 


Q(0|9) 是 相对 于 变量 zj 的 联合 对 数 似 然 的 期 望 值 ， 并 且 以 数据 集 钱 和 在 迭代 时 设置 的 
参数 ! 为 条 件 。 该 操作 的 效果 是 删除 潜在 变量 〈 相 加 或 积分 后 的 值 》 并 产生 实际 对 数 似 然 

















的 近似 值 。 可 以 想象 , 第 二 个 步 又 〈 称 为 最 大 化 步骤 ,或 M 步骤 ) 的 





















































生成 一 个 新 的 参数 集 0,,1。 重 复 该 过 程 






































到 参数 变 得 














目标 是 最 大 化 2(0l00)， 
并且 可 以 证 明 最 终 参 数 集 与 MLE 
相对 应 。 跳 过 所 有 中 间 步 又 并 假设 最 佳 参数 集 为 6， 最终 结果 如 下 : 


2pPUlN,0,) > > PO,0 Gs -A)G% — A) ] 
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ee 
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5 p01,0,) 











> 1PC ,0,) 








为 清楚 起 见 ， 我 们 可 以 使 用 贝 叶 斯 定理 计算 概率 p(jlxi, 7: 
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1 SH) 7 (Sy) 


(j|X,0,) ~ wp(x|j,0,) where p(x,|j,0,)=————— 
p(j|x,0, P(X | ,0 p(xi|j,0, rcs 
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我 们 可 以 通过 归 一 化 所 有 项 来 消除 比例 ， 使 得 它们 的 总 和 等 于 1 (满足 概率 分 布 的 


要 求 )。 























现在 ， 让 我 们 考虑 一 个 使 用 scikit-learn 的 实际 示例 。 由 于 该 示例 纯粹 是 为 了 教学 ， 所 











以 我 们 使 用 一 个 易于 可 视 化 的 二 维 数据 集 : 


from sklearn.datasets import make blobs 


nb_samples = 300 
nb centers = 2 


XxX, Y = make blobs(n samples=nb samples, n features=2, center box=[-1, 








centers=nb centers, cluster std=[1.0, 0.6], random state=1000) 




















1], 


该 数据 集 是 从 两 个 具有 不 同 标 准 差 (1.0 和 0.6) 的 高 斯 分 布 中 采样 生成 的 ， 如 图 5-6 




















所 示 。 
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图 5-6 ”高 斯 混合 样本 数据 集 



































我 们 的 目标 是 同时 使 用 高 斯 混合 模型 和 K-means， 并 比较 最 终结 果 。 正 如 我 们 对 两 个 


分 量 所 期 望 的 那样 ， 数 据 生 成 过 程 的 近似 值 如 下 : 
Paaa (X) TWINK; LS) +t w N(x; LS,) 

















我 们 现在 可 以 





二 














 n_components=2 来 训练 GaussianMixture 实例 。 默 认 协 方差 的 类 型 


三 
候 


完全 协 方差 ， 但 可 以 通过 设置 参数 covariance type 来 更 改 该 选项 。 人 允许 的 值 为 full、diag、 
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spherical 和 tied 《这 会 强制 算法 对 所 有 高 斯 使 用 共享 








的 单 协 方差 矩阵 ): 





from sklearn.mixture import GaussianMixture 


gm = GaussianMixture(n components=2, random state=1000) 


drt: fit CX) 
Y pred = gm.fit predict (Xx) 


print('Means: \n{}'.format (gm.means )) 
print('Covariance matrices: \n{}'.format 


print('Weights: \n{}'.format (gm.weights_ 


代码 段 输出 如 下 : 


Means: 
OOZLELS04 =1.503295837 
0.97121896 -0.01679101 


Ft 


Covariance matrices: 
[ 0.86794212 -0.18290731 
[-0.18290731 1.06858097 


r 一 


0.44075382 0.02378036] 
0.02378036 0.37802115] 











Weignhts: 
[0.39683899 0.60316101] 


因此 ，MLE 产生 了 两 个 分 量 ， 其 中 一 个 分 量 略 占 优势 ( 即 wz = 0.6)。 为 了 知道 高 斯 4 

















轴 的 方向 ， 我 们 需要 计算 协 方 差 矩阵 的 归 一 化 特 生 








(gm.covariances )) 


) ) 





1 这 








FE 向量 《〈 这 个 概念 将 厂 


E 第 7 章 中 得 到 充 

















解释 ): 





import numpy as np 


cl = gm.covariances_ [0] 


c2 = gm.covariances_ [1] 


wl, vl = np.linalg.eigh (cl1) 
w2, V2 = np.linalg.eigh (c2) 


nvl = v1 / np.linalg.norm(v1) 
nv2 = v2 / np.linalg.norm(v2) 
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print('Eigenvalues 1: \n{}'.format (wl1)) 
print('Eigenvectors 1: \n{}'.format (nv1)) 


print('Eigenvalues 2: \n{}'.format (w2)) 





print('Eigenvectors 2: \n{}'.format (nv2)) 





输出 如 下 : 


Eigenvalues 1: 
[0.75964929 1.17687379] 
Eigenvectors 1: 
[[-0.608459 -0.36024664] 
[-0.36024664 0.608459 |]] 





Eigenvalues 2: 

[0.37002567 0.4487493 |] 

Eigenvectors 2: 

[PT 0.22534853 一 056702373 
[0.:6702373 =0%22534853]] 

















在 两 个 双 变 量 高 斯 中 《一旦 被 截断 并 从 顶部 观察 ， 可 以 被 想象 为 顶 圆 )， 主 要 成 分 是 第 
二 个 ( 即 第 二 列 ， 对 应 于 最 大 的 特征 值 )。 椭 圆 的 偏心 率 由 特征 值 之 间 的 比率 确定 。 如 果 这 
样 的 比率 等 于 1， 则 形状 是 圆 形 ， 高 斯 是 完全 对 称 的 ， 否 则 它们 沿 着 轴 伸展 。 主 要 成 分 和 x 
轴 之 间 的 角度 〈 以 度 为 单位 ) 如 下 : 







































































import numpy as np 


al = np.arccos (np.dot (nvil[:, 1], [1.0, 0.0]) / np.linalg.norm(nvil[:, 1])) * 
180.0 / np.pi 
a2 = np.arccos (np.dot (nv2[:, 1], [1.0, 0.0]) / np.linalg.norm(nv2[:, 1])) * 


18.050 .六 BaP 




















前 面 的 公式 基于 主要 分 量 vi 和 x 轴 eo( 即 [1,0]) 之 间 的 点 积 : 


i Vi: 
vi:@ =|vlllle, lcos w So =arccos 一 一 一 
上 Neo ll 


在 显示 最 终结 果 之 前 ， 使 用 K-means 对 数据 集 进行 聚 类 将 很 有 帮助 : 












































from sklearn.cluster import KMeans 


km = KMeans (n clusters=2, random state=1000) 
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km.fit (xX) 
Y pred km = km.predict (XxX) 





















































有 具有 3 个 水 平 剖 面 截 图 形状 的 高 斯 混合 结果 和 K-mean 结果 如 图 5-7 所 示 。 
Gaussian Mixture K-means 
. @ Gaussian1 4 ® Cluster1 
$9 Gaussian2 9 Cluster2 
4 4 
1 全 
A > pg WE > 
44p + @ $ 中 4 人 + 
oo @ Nt EO + . ed 人 a 4 
4 oe 4 
他 4 
又 Mobis ¢ 
-1 人 9 ee 8 ob 义 
. 2。 ee SP” 44 4 
a 和 ee o 8 To 4 
2 - - © % 
a 
. . ~ al ee a 
. © 
. 
a e . @ 
图 5-7 具有 3 个 水 平 剖 面 截图 形状 的 高 斯 混合 结果 ( 左 ) 和 K-means 结果 《〈 右 ) 
































正如 预期 的 那样 ， 两 种 算法 产生 的 结果 非常 相似 ， 而 主要 的 差异 是 高 斯 的 非 对 称 性 造 














成 的 。 特 别 地 ， 对 应 于 数据 集 的 左下 部 分 的 伪 
应 的 高 斯 是 主导 的 。 为 了 检查 混合 物 的 行为 ， 让 我 们 使 / 
(0，-2) ; (1，-1) 一 一 边界 样本 以 及 (1,0)) 的 概率 方法 : 















































聚 类 在 两 个 方向 上 具有 较 大 的 方差 ， 并 且 对 
predict_proba() 计 算 3 个 样本 点 





print('P([0, -2]=G1) = {:.3f} and P([0, -2]=G2) = {:.3f}'.format (*list 
(gm.predict proba([[0.0, -2.0]]1) .squeeze()))) 

print('P([1, -1]=G1) = {:.3f} and P([1, -1]=G2) = {:.3f}'.format (*list 
(gm.predict proba([[1.0, -1.0]]1) .squeeze()))) 

print('P([1, 0]=G1) = {:.3f} and P([1, 0]=G2) = {:.3f}'.format(*1list 
(gm.predict proba([[1.0, 0.0]]).squeeze()))) 

代码 块 输出 如 下 所 示 : 

P([0, -2]=G1) = 0.987 and P([0, -2]=G2) = 0.013 

P([1l, -1]=G1) = 0.354 and P([1, -1]=G2) = 0.646 

P([1, 0]=G1) = 0.068 and P([1, 0]=G2) = 0.932 

我 建议 大 家 使 用 其 他 协 方差 类 型 重复 该 示例 ， 然 后 将 所 有 硬 分 配 与 K-means 进行 
比较 。 
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5.4.2 用 AIC 和 BIC 方法 评估 高 斯 混合 的 性 能 


由 于 高 斯 混合 是 一 种 概率 模型 ， 因此 要 找到 最 佳 分 量 数 , 需要 采用 的 方法 不 同 于 前 几 章 中 
分 析 的 方法 。 使 用 最 广泛 的 技术 之 一 是 Akaike 信息 准则 (Akaike Information Criterion，AIC )， 
它 基 于 信息 理论 (参见 期 刊 JEEE Transactions on Automatic Control 的 论文 4 new look at the 
statistical model identification)。 如 果 一 个 概率 模型 具有 n, 个 参数 〈 即 必须 学 习 的 单个 值 》 
并 且 达 到 最 大 负 对 数 似 然 Lj， 则 AIC 定义 如 下 : 
AIC(n, ,Ly) = 2n, — 2L,,, 


a A be 第 一 个 是 关于 价值 本 身 ，AIC 越 小 ， 分 数 越 高 。 事 实 上 ， 
考虑 到 Occam 的 剃刀 原理 ， 模 型 的 目标 是 用 最 少数 量 的 参数 实现 最 佳 的 似 然 性 。 第 二 个 含 
义 与 信息 理论 息息相关 (我 们 不 讨论 数学 上 烦琐 的 细节 ), 特别 是 数据 生成 过 程 和 通用 概率 
模型 之 间 的 信息 丢失 问题 。 我 们 可 以 证 明 AIC 的 渐 近 最 小 化 〈 当 样本 数 趋 于 无 穷 大 时 ) 等 
同 于 信息 丢失 的 最 小 化 。 考 虑 到 基于 不 同 数量 的 分 量 (n, 是 所 有 权重 、 平 均值 和 协 方差 参 
数 的 总 和 ) 的 几 个 高 斯 混合 ， 具 有 最 小 AIC 的 配置 对 应 于 以 最 高 精度 再 现 数 据 生 成 过 程 的 
模型 。AIC 的 主要 局 限 性 在 于 小 数据 集 。 在 这 种 情况 下 ， 对 于 大 量 参数 ，AIC 往往 达到 其 
最 小 值 ， 这 与 Occam 的 剃刀 原理 形成 了 对 比 。 但 是 ， 在 大 多 数 实际 情况 下 ，AIC 提供 了 一 
个 有 用 的 相对 衡量 标准 ， 可 以 帮助 数据 科学 家 排除 许多 配置 并 且 仅 分 析 最 有 希望 的 配 


当 需 要 强制 将 参数 的 数量 保持 在 非常 低 的 水 平时 ， 我 们 可 以 采用 贝 叶 斯 信息 度量 
(Bayesian Information Criterion，BIC)， 其 定义 如 下 : 
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BIC(n,n,,L,)= log(n)n, —2L 


opt 


在 前 面 的 公式 中 ，n 是 样本 数 ( 例 如 当 n= 1000 并 且 使 用 自然 对 数 时 ， 惩 罚 约 为 6.9)。 
因此 ，BIC 几乎 等 同 于 AIC， 甚 至 对 参数 数量 的 惩罚 更 强 。 然 而 ， 即 使 BIC 倾向 于 选择 较 
小 的 模型 ， 结 果 通 常 也 不 如 AIC 可 靠 。BIC 的 主要 优点 是 当 n 一 时 ， 数 据 生 成 过 程 pa 
和 模型 p,, (具有 最 小 BIC) 之 间 的 Kullback-Leibler 散 度 趋 于 0: 


2 Dp (x, 
Dy(p, | pc)= Vp, GE)iog Pe 


i=] data \™ i 


当 两 个 分 布 相 同时 ， 由 于 Kullback-Leibler 散 度 为 空 ， 因 此 前 一 个 条 件 意味 着 BIC 倾向 
于 渐 近 地 选择 准确 再 现 数据 生成 过 程 的 模型 。 


现在 ， 让 我 们 考虑 前 面 的 示例 ， 检 查 AIC 和 BIC 是 否 有 不 同 数量 的 分 量 。scikit-learn 
将 这 些 度量 作为 GaussianMixture 类 的 方法 (方法 aic0 和 方法 bicO0 ) 进行 了 合并 。 此 外 ,我 
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们 还 需要 计算 每 个 模型 实现 的 最 终 对 数 似 然 。 这 可 以 通过 乘 以 方法 score0 获 得 的 值 〈 即 每 
个 样本 的 平均 对 数 似 然 乘 以 样本 数 ) 来 实现 ， 如 下 所 示 : 











from sklearn.mixture import GaussianMixture 


n max components = 20 
aics = [] 
bics = [] 


log likelihoods = [] 


for n in range(l, n max components + 1): 

gm = GaussianMixture(n components=n, random state=1000) 
gm.fit (x) 

aics.append (gm.aic (X)) 

bics.append(gm.bic (xX)) 

log likelihnoods.append (gm.score(X) * nb samples) 


高 斯 混合 的 AIC、BIC 和 对 数 似 然 如 图 5-8 所 示 。 


AC BIC Log-likelihood 


1660 


1620 本 


1580 


1234567891011121314151617181920 123456789101112131415117181920 1234567891011121314151617131920 
Number of Gaussians Number of Gaussians Number of Gaussians 














图 5-8 ”高 斯 混合 的 AIC、BIC 和 对 数 似 然 〈 分 量 数量 在 〈1，20) 之 间 ) 





























在 这 种 情况 下 , 我们 知道 数据 集 是 由 两 个 高 斯 分 布 生 成 的 ,但 假设 我 们 没有 这 条 信息 。 
AIC 和 BIC 的 (局 部 ) 最 小 值 都 是 zx=2。 然 而 ， 当 BIC 继续 变 得 越 来 越 大 时 ，AIC 的 伪 
全 局 最 小 值 为 n= 18。 因 此 ， 如 果 我 们 信任 AIC， 则 应 该 选择 18 这 个 分 量 ， 这 相当 于 对 许 
多 具有 很 小 的 方差 的 高 斯 数据 集 进 行 超 细 分 。 另 一 方面 ， 与 其 他 值 相 比 ，mz=2 和 n= 18 
之 间 的 差异 不 是 很 大 ， 因 此 ， 考 虑 到 它 简 单 得 多 ， 我 们 也 可 以 选择 前 一 种 配置 。BIC 确认 
了 这 种 选择 。 事 实 上 ， 即 使 还 存在 对 应 于 n. = 18 的 局 部 最 小 值 ， 其 值 也 比 nc= 2 所 达到 的 
BIC 大 得 多 。 cai 这 种 行为 是 由 于 样本 大 小 而 造成 的 额外 损失 。 由 于 每 
个 双 变 量 高 斯 需要 一 个 变量 作为 权重 ， 两 个 变量 作为 平均 值 ，4 个 变量 作为 协 方差 矩阵 ， 因 此 
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当 n=2 时 , 我 们 得 到 ,= 

















对 数 似 然 增 加 


相当 于 Dirac’s delta)， 参 数 的 数量 在 模型 选择 过 程 中 起 主要 作用 。 
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2x(1+2+ 有 =14, 当天 = 18 时 , 我 们 得 到 ,= 18x(1+2+4) = 126。 





由 于 有 300 个 样本 ，BIC 受到 log(300) 守 5.7 的 惩罚 ， 这 导致 BIC 增加 约 350。 当 nn. 变 大 时 ， 
































(因为 在 极端 情况 下 ， 每 个 点 都 可 以 被 视 为 由 具有 零 方差 的 单个 高 斯 生成 ， 


















































在 没有 任何 额外 代价 的 情况 下 , 更 大 的 模型 很 可 能 被 视 为 最 佳 选择 , 但 在 聚 类 过 程 中 ， 


我 们 也 需要 强 





判 执行 最 大 4 














分 离 原则 。 这 种 情况 与 较 少 的 分 量 有 一 定 关 系 ， 因 此 ，BIC 应 该 








称 为 最 佳 方法 。 一 般 来 说 ， 我 建议 比较 两 个 标准 ， 试 图 找到 对 应 于 AIC 和 BIC 之 间 最 大 协 
议 的 ne。 此 外 ,我们 还 应 考虑 基本 背景 知识 ， 因 为 许多 数据 生成 过 程 具 有 明确 定义 的 行为 ， 

















并 且 可 以 通过 排除 所 有 那些 不 切合 实际 的 值 来 限制 潜在 分 量 的 范围 。 我 请 读者 用 n= 18 重 
复 前 面 的 例子 ， 
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绘制 所 有 高 斯 图 并 比较 某 些 特定 点 的 概率 。 
5.4.3” 贝 叶 斯 高 斯 混合 选择 成 分 









































贝 叶 斯 高 


斯 混合 模型 


















































要 全 面 的 数学 描述 ， 而 这 超出 了 本 书 的 范围 (参见 期 刊 JEEE Transactions On Systems 的 论 
文 Variational Learning for Gaussian Mixture Models)。 但 是 ， 在 讨论 主 属性 之 前 ， 我 们 要 先 
理解 主 概念 和 差异 ， 这 会 对 后 面 学 习 有 所 帮助 。 假 设 我 们 有 一 个 数据 集 X， 以 及 用 疝 量 0 
参数 化 的 概率 模型 。 在 前 面 的 部 分 中 ， 你 所 看 到 的 概率 p(X10) 的 似 然 是 Zb 习 ， 其 最 大 化 将 
导致 生成 具有 最 大 概率 的 模型 。 但 是 ， 我 们 并 没有 对 参数 施加 任何 限 秆 








是 基于 变 分 框架 的 标准 高 斯 混合 的 扩展 。 这 一 主题 非常 先进 ， 需 



















































































1， 它 们 的 最 终 值 












































完全 取 雇 于 和 如 果 我 们 引入 贝 叶 斯 定理 ， 则 可 以 得 到 以 下 结果 : 




















P(O1X)=wPp(X19)P(O) 





在 给 定数 据 集 的 情况 下 ， 等 式 左 侧 是 参数 的 后 验 概 率 ， 并 且 我 们 知道 它 与 参数 先 验 概 


率 的 似 然 性 成 正 上 


























。 在 标准 MLE 中 ， 我 们 只 使 用 p(X10), 但 是 我 们 还 可 以 包括 关于 0 的 先 

















验 知识 (就 概率 分 布 而 言 》 并 最 大 化 p(9| 有 或 比例 代理 函数 。 然 而 ， 一般 来 说 ，p(0| 如 是 难 





























We 

















以 处 理 的 ， 并 且 先 前 的 p(0) 通 常 很 难 定义 ， 因 为 关于 高 概率 区 域 的 了 解 不 够 。 出 于 这 个 原 























因 ， 我 们 最 好 ; 











各 参数 建 模 成 具有 参数 1 的 概率 分 布 《 所 有 特定 参数 的 集合 ， 例 如 平均 值 、 














系数 等 )， 并 引入 一 个 近似 真实 分 布 的 变 分 后 验 (Variational Posterior ) gq(9|X 刀 。 
这 样 的 工具 是 称 为 变 
节 )， 这 使 我 们 可 以 轻松 找到 最 佳 参数 ， 而 无 须 使 用 实际 的 p(0| 了 )。 特 别 是 在 高 斯 混合 中 ， 





存在 3 组 不 同 
































分 贝 叶 斯 推理 技术 的 关键 要 素 《〈 你 可 以 在 上 述 论文 中 找到 更 多 细 























的 参数 ， 并 且 每 一 组 都 以 适当 的 分 布 建 模 。 在 这 种 情况 下 ， 我 们 不 希望 讨论 














这 些 选择 的 细节 ， 但 理解 其 基本 原理 是 有 必要 的 。 
在 贝 叶 斯 框架 中 ,给 定 似 然 p(XI0)， 概 率 密度 函数 p(0)， 与 后 验 函 数 P(b| 习 属于 同一 系 
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列 ， 称 为 共 斩 先 验 〈Conjugate Prior〉 函数 。 在 这 种 情况 下 ， 此 过 程 显然 可 以 被 简化 ， 因 
为 似 然 的 影响 仅 限于 修改 前 一 个 参数 。 由 于 似 然 是 正 态 的 ， 因 此 ， 为 了 对 均值 进行 建 模 ， 
我 们 可 以 使 用 正 态 分 布 ( 相 对 于 均值 的 共 斩 先 验 )， 对 于 协 方差 矩阵 ,我 们 可 以 使 用 Wishart 
分 布 ( 即 相对 于 均值 的 逆 和 矩阵 的 共 思 先 验 )。 在 这 个 讨论 中 ,我们 没有 必要 熟悉 所 有 这 些 分 
布 〈“ 正 态 分 布 除外 )， 但 是 记 住 它们 是 共 斩 先 验 是 很 有 帮助 的 。 因 此 ， 给 定 有 关 参 数 的 初始 
猜测 ， 在 给 定数 据 集 的 情况 下 ， 似 然 性 的 作用 是 调整 并 最 大 化 它们 的 联合 概率 。 
由 于 对 混合 的 权重 进行 了 归 一 化 处 理 ， 因 此 它们 的 总 和 必须 始终 等 于 1。 并 且 当 我 们 
想 要 仅 自 动 选 择 更 多 的 分 量 的 子 集 时 ， 我 们 可 以 使 用 Dirichlet 分 布 ， 该 分 布 具有 稀疏 的 有 
用 属性 。 换 句 话 说， 给 定 一 组 权重 wi, w;, …, ws，Dirichlet 分 布 倾向 于 使 大 多 数 权重 的 概率 
保持 相当 低 ， 而 较 小 的 非 零 权重 子 组 起 决定 作用 。Dirichlet 过 程 提 供 了 一 种 替代 方案 ， 这 
是 一 种 产生 概率 分 布 的 特定 随机 过 程 。 在 这 两 种 情况 下 ， 我 们 的 目标 是 调整 单个 参数 〈 称 为 
权重 浓度 参数 )， 该 参数 能 增加 或 减少 稀疏 分 布 的 概率 〈 或 简称 为 Dirichlet 分 布 的 稀疏 性 )。 

scikit-learm 实现 了 贝 叶 斯 高 斯 混合 (通过 BayesianGaussianMixture 类 )， 这 可 以 基于 Dirichlet 
过 程 和 分 布 。 在 此 示例 中 ， 我 们 将 保留 默认 值 〈 进 程 ) 并 检查 不 同 浓度 值 的 行为 《参数 
WwWeight_concentration_prior)。 对 于 逆 协 方差 ， 我 们 也 可 以 调整 高 斯 的 平均 值 和 Wishart 的 自由 度 。 
然而 ， 在 没有 任何 具体 的 先 验 知识 情况 下 ,设置 这 些 值 是 非常 困难 的 (我 们 假设 不 知道 平均 值 
位 于 何 处 或 协 方差 算 阵 的 结构 )， 最 好 保留 从 概率 结构 得 出 的 值 。 因 此 ， 平 均值 (高 斯 ) 将 等 
于 了 的 均值 (位移 可 以 用 参数 mean_precision_prior 控制 , 值 小 于 1.0 时 倾向 于 将 单个 平均 值 移 
癌 耶 的 平均 值 ， 而 较 大 的 值 时 增加 位 移 值 )， 并 且 自 由 度 的 数量 (Wishart〉 被 设置 为 等 于 特征 
的 数量 (ZX 的 维度 )。 在 许多 情况 下 ， 这 些 参 数 由 学 习 过 程 来 自动 调整 ， 无 需 更 改 其 初始 值 。 

相反 ， 我 们 可 以 调整 参数 weight_concentration_prior， 以 增加 或 减少 活动 分 量 的 数量 
( 即 其 权重 不 接近 零 或 远 低 于 其 他 权重 )。 

在 此 示例 中 ， 我 们 将 使 用 5 个 部 分 重 又 的 高 斯 分 布 生成 500 个 二 维 样本 “特别 地 ， 其 
中 3 个 共享 非常 大 的 重 登 区 域 ): 






























































































































































































































































































































































































































































































































































































































































from sklearn.datasets import make blobs 


500 
5 


nb _ samples 


nb centers 





XxX, Y = make blobs (n samples=nb samples, n features=2, center box=[-5, 5], 
centers=nb centers, random state=1000) 





让 我 们 从 一 个 大 的 权重 集中 参数 (1000〉 开始 ， 最 大 分 量 数 等 于 5。 在 这 种 情况 下 ， 我 
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中 


们 期 望 找到 大 量 〈 可 能 是 5 个 ) 的 有 效 分 量 ， 因 为 Dirichlet 过 程 无 法 实现 高 级 别 的 稀 玻 性 : 

















(通过 


可 能 是 
数 〈 即 0.1)。 如 果 该 近似 值 可 以 使 用 较 少 的 高 斯 分 布 成 功 生成 和 则 应 找到 一 个 空 权重 : 














from sklearn.mixture import BayesianGaussianMixture 
gm = BayesianGaussianMixture(n components=5, weight concentration prior=1000, 
max iter=10000, random state=1000) 


gm.fit(X) 


print('Weights: {} .format (gm.weights ) ) 





代码 段 的 输出 如 下 : 


Weights: [0.19483693 0.20173229 0.19828598 0.19711226 0.20803253] 



































正如 预期 的 那样 ， 所 有 分 量 的 权重 大 致 相同 。 为 了 得 到 进一步 的 确认 ， 我 们 可 以 检查 
函数 argmax()〉 几乎 还 没有 分 配给 每 个 样本 的 样本 数量 ， 如 下 所 示 ; 


Y pred = gm.fit predict (Xx) 






































print((Y pred == 0) .sum()) 
print((Y pred == 1) .sum()) 
print((Y pred == 2) .sum()) 
print((Y pred == 3) .sum()) 
print((Y pred == 4) .sum()) 
输出 如 下 : 

96 

102 

97 

98 

107 














因此 ， 平 均 而 言 ， 所 有 高 斯 都 产生 相同 数量 的 点 。 最 终 配 置 如 图 5-9 所 示 。 


该 模型 通常 是 可 以 接受 的 ， 但 我 们 假设 我 们 知道 潜在 原因 的 数量 ( 即 生成 高 斯 分 布 ) 
是 4 而 不 是 5。 我 们 可 以 尝试 的 第 一 件 事 是 保持 原始 的 最 大 分 量 数 3 i 






















































































星 











gm = BayesianGaussianMixture(n components=5, 





weight concentration prior=0.1, 
max iter=10000, random state=1000) 
gm.fit (Xx) 
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print('Weights: {}'.format (gm.weignhnts )) 


Gaussian 1 
Gaussian 2 
Gaussian 3 
Gaussian 4 
Gaussian 5 











poeeoex 


XA 


Xo 


图 5-9 5 个 活动 分 量 的 最 终 配 置 


























输出 如 下 所 示 : 


Weights: [3.07496936e-01 2.02264778e-01 2.94642240e-01 1.95417680e-01 
1.78366038e-04] 











Nl 














可 以 看 出 ， 第 5 个 高 斯 函数 的 权重 比 其 他 高 斯 函数 的 权重 要 小 得 多 ， 并 且 可 以 完全 于 
弃 〈 请 你 检查 是 否 几 乎 没有 分 配 样 本 )。 上 共有 4 个 活动 分 量 的 最 终 配置 如 图 5-10 所 示 。 




















Gaussian 1 
Gaussian 2 
Gaussian 3 
Gaussian 4 


mx 


各 

















图 5-10 4 个 活动 分 量 的 最 终 配 置 
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可 以 看 出 ， 该 模型 已 经 执行 了 分 量 数 量 的 自动 选择 ， 并 且 它 已 经 将 较 大 的 右 侧 斑点 
拆 分 为 两 个 部 分 ， 这 两 个 部 分 几乎 是 正 交 的 。 即 使 模型 使 用 大 量 初始 分 量 〈 例 如 10) 进 
行 训 练 ， 该 结果 仍然 会 保持 不 变 。 作 为 练习 ， 我 建议 用 其 他 值 重 复 该 示例 ， 检 查 一 下 权 
重 之 间 的 差异 。 贝 叶 斯 高 斯 混合 非常 强大 ， 因 为 它们 能 够 避免 过 度 拟 合 。 实 际 上 ， 虽 然 
示 准 高 斯 混合 将 通过 减少 它们 的 协 方差 来 使 用 所 有 分 量 ， 但 必要 时 (如 和 覆盖 密集 区 域 )， 
这 些 模型 利用 Dirichlet 过 程 /分 布 的 特性 ， 以 避免 激活 太 多 分 量 。 例 如 通过 检查 模型 可 实 
现 的 最 小 分 量 数 ， 可 以 很 好 地 了 解 潜在 的 数据 生成 过 程 。 在 没有 任何 其 他 先 验 知识 的 情况 
下 ， 这 样 的 值 是 最 终 配置 的 一 个 良好 候选 者 ， 因 为 较 少数 量 的 分 量 也 将 产生 较 低 的 最 终 可 
能 性 。 当 然 , 我 们 可 以 将 AIC/BIC 与 此 方法 一 起 使 用 ， 以 便 获 得 另 一 种 形式 的 确认 。 然 而 ， 
该 模型 与 标准 高 斯 混合 的 主要 区 别 在 于 其 可 能 包括 来 自 专家 的 先 验 信息 《例如 均值 和 协 方 
差 结构 的 原因 )。 出 于 这 个 原因 ， 我 请 你 通过 更 改 mean_precision_prior 的 值 来 重复 该 示例 。 
例如 ， 你 可 以 将 参数 mean_prior 设置 为 与 式 平 均值 不 同 的 值 并 调整 mean_precision_prior， 
从 而 强制 模型 基于 某 些 先 验 知识 实现 不 同 的 分 制 〈 即 区 域 中 的 所 有 样本 应 该 由 特定 分 量 
生成 )。 


5.4.4 生成 高 斯 混合 


高 斯 混合 模型 主要 用 来 生成 模型 。 这 意味 着 训练 过 程 的 目标 是 优化 参数 ， 以 最 大 程度 
提高 模型 生成 数据 集 的 可 能 性 。 如 果 假 设 是 正确 的 ， 并 且 闷 已 经 从 特定 数据 生成 过 程 中 采 
样 ， 则 最 终 近似 值 必须 能 够 生成 所 有 其 他 可 能 的 样本 。 换 名 话说 ,我 们 假设 如 EX 是 IDD, 和 一 
Pu 因此 ， 当 找到 最 佳 近似 值 pspuu 时， 其 概率 在 疡 高 的 情况 下 也 很 有 可 能 由 Pu 生成 。 

在 这 个 例子 中 ， 我 们 希望 在 半 监 督 场景 中 采用 高 斯 混合 模型 。 这 意味 着 我 们 有 一 个 包 
含 标记 样本 和 未 标记 样本 的 数据 集 ， 并 且 和 希望 利用 标记 的 样本 作为 基本 事实 ， 找 出 可 以 生 
成 整个 数据 集 的 最 佳 混合 。 当 标记 非常 大 的 数据 集 困 难 且 昂贵 时 ， 这 种 情况 非常 普遍 ， 而 
为 了 克服 这 个 问题 ， 我 们 可 以 标记 一 个 均匀 采样 的 子 集 ， 并 训练 一 个 生成 模型 ， 该 模型 能 
够 以 最 大 的 可 能 性 生成 剩余 的 样本 。 

我 们 将 使 用 更 新 的 权重 、 均 值 和 协 方差 矩阵 公式 ， 这 些 公式 在 主要 章节 中 通过 一 个 简 
单 的 过 程 进行 讨论 ， 如 下 所 示 。 

。 所 有 标记 的 样本 都 被 认为 是 基本 事实 ， 所 以 如 果 有 大 个 类 ， 我 们 还 需要 定义 磊 个 分 
量 并 将 每 个 类 分 配给 其 中 一 个 。 因 此 ， 如 果 x 是 用 yi= {1,2,…, 他 标记 的 通用 
样本 ， 则 相应 的 概率 向 量 将 是 p(xi) = (0, 0,…, 1, 0,…, 0)， 其 中 1 对 应 于 与 yj; 类 
相关 联 的 高 斯 。 换 句 话说 ， 我 们 信任 标记 的 样本 并 强制 单个 高 斯 生成 具有 相同 
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标签 的 子 集 。 
。 所 有 未 标记 的 样本 均 以 标准 方式 处 理 , 并 且 通 过 将 权重 乘 以 每 个 高 斯 下 的 概率 来 确 
定 概率 向 量 。 


























让 我 们 首先 生成 一 个 包含 500 个 三 维 样本 的 数据 集 (标记 100 个 ， 其 余 的 未 标记 )， 真 
实 标签 为 0 和 1， 未 标记 的 标记 等 于 -1: 














from sklearn.datasets import make blobs 


nb_samples = 500 
nb unlabeled = 400 





X, Y = make blobs (n samples=nb samples, n features=2, centers=2, 
cluster std=1.5, random state=100) 


unlabeled idx = np.random.choice (np.arange (0, nb samples, 1), 





replace=False, size=nb unlabeled) 
Y[unlabeled idx] = -1 








在 这 一 点 上 , 我 们 可 以 初始 化 高 斯 参数 (权重 选择 相等 , 协 方差 矩阵 必须 是 半 正 定 的 )。 
如 果 读 者 不 熟悉 这 个 概念 ， 我 们 可 以 说 对 称 方 第 阵 4E 多"“ 是 半 正 定 的 ， 如 果 ; 
XxX AX0 V xz(0)eR’ 
此 外 ， 所 有 特征 值 都 是 非 负 的 ， 并 且 特 征 向 量 生 成 一 个 标准 正 交 基 (这 个 概念 在 第 7 
章 谈论 PCA 时 非常 有 用 )。 
如 果 随 机 选择 协 方差 矩阵 ， 为 了 达到 半 正 定 ， 有 必要 将 每 个 矩阵 乘 以 





































































































转 置 矩 阵 : 

















import numpy as np 


ml = np .array([=2.0; =2.5]) 
1 snp.array([ [ls07 0]; 

LQ OY 
ql = 0.5 


m2 = np.array ([1.0, 3.0]) 
c2 = np.array ([[2.0, -1.0] 





q2 = 0.5 


数据 集 和 初始 高 斯 配置 如 图 5-11 所 示 。 
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5-11 数据 集 〈 未 标记 的 样本 用 标记 ) 和 初始 配 
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® Class1 
儿 Class2 
x Unlabeled 























现在 ， 我们 可 以 执行 一 些 少量 的 迭代 【在 本 示例 中 ， 设 定 为 10 次 迭代 )， 遵 循 先前 定 
义 的 规则 (当然 ， 也 可 以 检查 参数 的 稳定 性 ， 以 便 停止 迭代 )。 使 用 SciPy multivariate_normal 
类 计算 在 每 个 高 斯 下 的 概率 : 


from scipy.stats import multivariate normal 


nb iterations = 

















for i in range (nb iterations): 


Pij = np.zeros( (nb samples, 2)) 
for i in range (nb samples): 


主 下 芯 [ 圭 
pl = 
大 ql 
p2 = 
大 q2 
Pij [i] 
else: 
Pij [i; 


n = np.sum(Pij, 


三 站 


multivariate normal.pdf (X[i], mil, 


multivariate normal.pdf (X[i], m2, 


= [pl, p2] / (pl + p2) 


axis=0) 


np.sum(np.dot (Pij.T, X), axis=0) 


ml = np.dot (Pij[:, 0], xX) / n[0] 


号 
1 


np /dot(pidl sy Ll XY HEE 


ql = n[0] / float (nb samples) 


Ee] 
D 
ll 





n[1] / float (nb samples) 


= [1.0, 0.0] if YI[i] 


BL 


52; 
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allow singular=] 


True) 





allow singular=] 


== 0 else [0.0, 1.0] 


True) 
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cl = np.zeros((2, 2)) 
c2 = np.zeros((2, 2)) 
for t in range (nb samples): 
cl += Pij[t, 0] * np.outer (X[t] -ml, X[t] -ml) 
c2 += Pij[t, 1] * np.outer (X[t] -m2, X[t] -m2) 
cl /= n[0] 
c2 /= n[1] 











过 程 结束 时 的 高 斯 混合 参数 如 下 : 





print\( 
print (ql 
print (ml) 
print (cl 
print ('\nGaussian 2:') 
2) 
m2) 
2) 


prin 





t( 
print (G 
t( 
print( 


代码 段 的 输出 如 下 : 


Gaussian 1: 

0.4995415573662937 

[ 0.93814626 -4.4946583 |] 
[FL 2 530423419, =0.; 109523659 
[=0#10952365” 26275963]] 


如 








Gaussian 2: 
0.5004584426337063 
[S15250L526" :63279170295 |] 
[[ 2.46061144 -0.08267972] 
[-0.08267972 2.54805208]] 

















正如 预期 的 那样 ， 由 于 数据 集 的 对 称 性 ， 权 重 几乎 保持 不 变 ， 同 时 均值 和 协 方差 矩阵 
也 进行 了 更 新 ， 以 最 大 化 似 然 。 最 终 配 置 如 图 5-12 所 示 。 


可 以 看 出 ， 两 个 高 斯 都 已 成 功 优化 ， 从 一 些 上 共有 可 信和 参考 作用 的 标记 样本 开始 ， 能 够 
生成 整个 数据 集 。 这 种 方法 非常 强大 ， 因 为 它 允 许 我 们 在 模型 中 包含 一 些 先 验 知识 而 无 须 
任何 修改 。 然 而 ， 由 于 标记 样本 具有 等 于 1 的 固定 概率 ， 因 此 该 方法 在 异常 值 方面 不 是 很 
健壮 。 如 果 样 本 尚未 通过 数据 生成 过 程 生成 或 受 噪声 影响 , 则 可 能 导致 模型 放 错 高 斯 分 布 。 
但 是 ， 通 常 应 忽略 这 种 情况 ， 因 为 当 评 估 中 包括 任何 先 验 知识 时 ， 我 们 都 必须 对 其 进行 预 
先 评估 ， 以 检查 其 是 否 可 靠 。 此 步骤 是 必需 的 ， 因 为 这 样 可 以 避免 模型 被 强制 仅 学 习 原 始 



























































Ar 
o 























































































































































































































异步 社区 好 好 好 你 最 棒 (13574065152) 专 享 请 尊重 版 权 





5.5 总 结 139 
数据 生成 过 程 的 一 部 分 的 风险 。 相 反 ， 当 标记 的 样本 真正 代表 了 基础 过 程 时 ， 它 们 的 加 入 
减少 了 错误 并 加 快 了 收敛 速度 。 我 建议 读者 在 引入 一 些 噪声 点 〈 例 如 〈-20,-10)) 之 后 
复 该 示例 ， 并 比较 几 个 未 标记 测试 样本 的 概率 。 
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5-12 ”经 过 10 次 迭代 后 的 最 终 配 置 



































在 本 章 中 ， 我 们 介绍 了 一 些 最 常见 的 软 聚 类 方法 ， 重 点 介绍 了 它们 的 属性 和 特性 。Fuzzy 
c-means 是 基于 模糊 集 概念 的 经 典 K-means 算法 的 扩展 。 聚 类 不 会 被 视 为 互 斥 分 区 ， 而 是 
可 以 与 其 他 聚 类 重 登 的 灵活 集 。 所 有 样本 总 是 分 配给 所 有 聚 类 ， 但 是 权重 向 量 确定 每 个 聚 


类 的 隶属 度 。 连 续 的 聚 类 可 以 定义 部 分 重 倒 的 属性 ， 因 此 ， 对 于 两 个 或 更 多 聚 类 ， 给 定 样 
本 的 权重 可 以 非 空 ， 而 大 小 决定 了 它 属于 每 个 段 的 数量 。 



















































































高 斯 混合 是 一 种 生成 过 程 ， 它 基于 这 样 的 假设 ， 即 可 以 用 高 斯 分 布 的 加 权 和 近似 实际 
的 数据 生成 过 程 。 在 给 定 预定 义 数量 的 分 量 的 情况 下 ， 对 模型 进行 训练 ， 以 获得 最 大 似 然 。 
我 们 讨论 了 如 何 使 用 AIC 和 BIC 作为 性 能 度量 ， 以 便 找 出 最 优 的 高 斯 分 布 数 。 我 们 还 简要 
介绍 了 贝 叶 斯 高 斯 混合 的 概念 ， 并 研究 了 用 现 有 知识 如 何 自动 选择 一 小 部 分 活动 分 量 。 在 
最 后 一 部 分 中 ， 我 们 讨论 了 半 监 督 高 斯 混合 的 概念 ， 展 示 了 如 何 使 用 一 些 标记 样本 作为 指 
导 ， 以 优化 具有 更 多 未 标记 点 的 训练 过 程 。 


在 第 6 章 中 ， 我 们 将 讨论 核 密度 估算 的 概念 及 其 在 异常 检测 领域 的 应 用 。 
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5.6 ”问题 


1. 软 聚 类 和 硬 聚 类 之 间 的 主要 区 别 是 什么 ? 














2. Fuzzy c-means 可 以 轻松 处 理 非 凸 聚 类 。 正 确 吗 ” 

















3. 什么 是 高 斯 混合 的 主要 假设 ? 








4. 假设 两 个 模型 达到 相同 的 最 优 对 数 似 然 ， 但 是 
意味 着 什么 ? 
































5. 考虑 到 第 4 个 问题 ， 我 们 更 希望 使 用 哪 种 模型 ? 
6. 为 什么 要 将 Dirichlet 分 布 作 为 贝 叶 斯 高 斯 混合 权 习 

















7. 假设 我 们 有 一 个 包含 1000 个 标记 样本 的 数据 集 
一 来 源 收 集 5000 个 样本 , 但 并 不 想 支付 额外 的 标签 费用 。 我们 该 如 何 才 能 将 它们 融入 我 们 
































的 模型 中 ? 
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其 值 已 经 过 专家 认 订 


个 的 两 售 。 记 











在 本 章 中 ， 我 们 将 讨论 无 监督 
程 的 概率 密度 函数 的 模型 ， 或 确定 给 定 新 样本 是 内 值 (Inlie 








| 6 
让 罗网 昌 顺 全 





学 习 的 实际 应 用 。 目 标 是 训练 能 够 重 现 特定 数据 生成 过 
































型 。 一 般 来 说 ， 我 们 想 的 具体 目标 是 发 现 异常 ， 


给 定 概率 分 布 p(x) <4 的 模型 ， 























本 章 将 着 重 讨论 以 下 主题 。 























这 些 异 常 通常 是 模 











r) 还 是 异常 值 COutlier) 的 模 
型 不 太 可 能 的 样本 〔( 即 


























Et 


中 4 是 预定 义 的 阔 值 )， 或 远离 主要 分 布 的 质心 。 




















。 概率 密度 函数 及 其 基本 属性 简介 。 








图 及 其 局 限 性 。 








mt 
过 











。 核 密度 估计 (Kernel Density Estimation，KDE )。 





。 人 带宽 选择 标准 。 
。 异常 检测 的 单 变量 示例 。 


























。 使 用 KDD Cup 99 数据 集 i 





。 单 类 支持 向 量 机 。 











人 








。 基于 孤立 森林 的 异常 检测 。 


6.1 技术 要 求 


本 章 中 的 代码 需求 如 下 。 


。 Python 3.5+〔 强 烈 推 荐 Anaconda 发 行 版 )。 





。 库 。 
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行 HITP 攻击 的 异常 检测 的 示例 。 


下 版 权 
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m SciPy 0.19+。 

@ NumPy 1.10+。 

m scikit-learn 0.20+。 
m pandas 0.22+。 

m Matplotlib 2.0+。 

m seaborn 0.9+。 


示例 代码 可 在 本 书 配套 的 代码 包 中 找到 。 


6.2 ”概率 密度 函数 









































在 前 几 章 中 ,我 们 始终 假设 数据 集 是 从 隐 式 数据 生成 过 程 pao 中 提取 的 ， 所 有 算法 都 假 
定 x; EX 为 独立 同 分 布 并 且 均 匀 采 样 。 我 们 假设 可 以 足够 准确 地 表示 pawa， 因 此 算法 可 以 
学 习 用 有 限 的 初始 知识 进行 概括 。 相 反 ， 在 本 章 中 ， 我 们 感 兴 趣 的 是 对 py 直接 建 模 且 没有 
任何 特定 限制 (例如 高 斯 混合 模型 通过 对 分 布 结构 施加 约束 来 实现 此 目标 )。 在 讨论 一 些 非 
常 强大 的 方法 之 前 , 我 们 简要 回顾 在 可 测量 子 集 XYE 因 "上 定义 的 通用 连续 概率 密度 函数 p(x) 
的 属性 是 有 帮助 的 〈 为 了 避免 混淆 ， 我 们 将 用 p(x) 表 示 密 度 函 数 ， 用 P(X) 表示 实际 概率 ): 
| pcodx=l and PrsC)=| ,p(x)dx 


















































































































































例如 单 变量 高 斯 分 布 完全 由 均值 4 和 方差 表征 : 




















p(X)= 
2n0 


因此 ，x & (a, 5b) 的 概率 如 下 : 


i 





P(ax<b)= | 











即使 连续 空间 (例如 高 斯 中 某 个 事件 的 绝对 概率 为 零 ( 因 为 积分 具有 相同 的 极 值 )， 
概率 密度 函数 也 提供 了 一 种 非常 有 用 的 度量 ， 用 于 理解 一 个 样本 比 另 一 个 样本 更 可 能 的 程 
度 。 例 如 考虑 高 斯 分 布 N(0, D)， 密 度 p(1) = 0.4， 而 当 x=2 时 ， 密 度 p(1) = 0.4。 这 意味 着 
x =1 的 可 能 性 是 x=2 的 0.4/10.05=8 倍 。 以 相同 的 方式 ,我 们 可 以 设置 一 个 可 接受 的 阔 值 
a 并 定义 满足 PCo) < a 的 所 有 样本 x 为 异常 样本 例如 在 本 示例 中 ，a = 0.01)。 这 种 选择 
是 异常 检测 过 程 中 的 关键 步骤 。 正 如 我 们 将 要 讨论 的 那样 ， 它 必须 包括 潜在 的 异常 值 ， 但 
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这 些 异 常 值 仍然 是 常规 样本 。 
在 许多 情况 下 ， 特 征 向 量 是 用 多 维 随机 变量 建 模 的 。 例 如 数据 集 YE 加? 可 以 用 联合 概 
率 密度 函数 p(x % 习 表示 。 在 一 般 情况 下 ， 实 际 概率 需要 三 重 积分 : 


berdref 
Pla<x<bc<y<d,e<z</)=| | | px,y,2)drdydz 














































































































很 容易 理解 ， 任 何 使 用 这 种 联合 概率 的 算法 都 会 受到 复杂 性 的 负面 影响 。 通 过 假定 单 
个 分 量 的 统计 独立 性 ， 联 合 概率 密度 函数 可 以 获得 非常 大 的 简化 ; 
D(X,y,2)= PCDJP(OD)P(2) 

不 熟悉 这 个 概念 的 读者 可 以 想象 考试 前 的 一 大 群 学 生 。 用 随机 变量 建 模 的 特征 是 学 时 
(x) 和 完成 的 课程 数 (7)， 我 们 希望 根据 这 些 给 定 因素 p(Success|x, y) 找 出 成 功 的 概率 (这 
样 的 例子 是 基于 条 件 概率 ,但 主要 概念 总 是 相同 的 )。 我 们 可 以 假设 一 个 完成 所 有 课程 的 学 
生 可 以 减少 在 家 里 的 学 习 ; 然而 ， 这 样 的 选择 意味 着 两 个 因素 之 间 的 依赖 性 (和 相关 性 )， 
而 这 些 因素 不 再 能 够 单独 评估 。 相 反 ， 我 们 可 以 通过 假设 没有 任何 相关 性 来 简化 程序 ， 并 
根据 完成 的 课程 数量 和 完成 家 庭 作业 的 时 间 来 处 理 成 功 的 边际 概率 。 重 要 的 是 要 记 住 ， 特 
征 之 间 的 独立 性 与 随后 从 分 布 中 抽取 的 样本 的 独立 性 不 同 。 当 我 们 说 数据 集 由 IID 样本 组 
成 时 ,我 们 指 的 是 每 个 样本 的 概率 p(xilxii,xi2s…,p1) = p(x?)。 换 句 话 说 ,我 们 假设 样本 之 间 
没有 相关 性 ， 这 样 的 条 件 更 容易 实现 ， 因 为 它 经 常 对 数据 集 进行 无 序 处 理 ， 以 消除 任何 残 
留 的 相关 性 。 相 反 ， 特 征 之 间 的 相关 性 是 数据 生成 过 程 的 特殊 属性 ， 不 能 被 删除 。 因 此 ， 
在 某 些 情况 下 ， 我 们 假设 独立 性 ， 是 因为 知道 它 的 影响 可 以 忽略 不 计 ， 最 终结 果 不 会 受到 
太 大 影响 ， 而 在 其 他 情况 下 ， 我 们 将 基于 整个 多 维特 征 向 量 来 训练 模型 。 现 在 我 们 可 以 定 
义 将 在 其 余部 分 中 使 用 的 异常 的 概念 。 


6.2.1 ”作为 异常 值 或 新 值 的 寞 各 


本 章 的 主要 内 容 是 在 无 监督 的 情况 下 自动 检测 异常 。 由 于 模型 不 是 基于 标记 样本 提供 的 
反馈 ， 因 此 我 们 只 能 依靠 整个 数据 集 的 属性 来 找 出 相似 之 处 并 突出 差异 。 特 别 地 ， 我 们 从 一 
个 非常 简单 但 有 效 的 假设 开始 : 常见 事件 是 正常 的 ， 而 不 太 可 能 的 事件 通常 被 视 为 异常 。 当 
然 ， 这 一 定义 意味 着 我 们 监测 的 进程 正常 运行 ， 并 且 大 多 数 结 果 被 认为 是 有 效 的 。 例 如 硅 加 
工厂 必须 将 晶 圆 切 成 相等 的 块 。 我 们 知道 它们 每 个 都 是 0.2 英寸 x0.2 英寸 ( 约 0.5 厘米 x0.5 
厘米 )， 每 侧 的 标准 差 为 0.001 英寸 ( 约 0.003 厘米 )。 该 测量 已 经 在 100 万 个 处 理 步 又 之 后 
确定 。 我 们 是 否 有 权 将 0.25 英寸 x0.25 英寸 ( 约 0.64 厘米 x0.64 厘米 ) 芯片 视 为 异常 ? 当然 ， 
答案 是 肯定 的 。 事 实 上 ， 假 设 每 一 侧 的 长 度 被 建 模 为 高 斯 分 布 〈 一 个 非常 合理 的 选择 )， 其 
中 =0.2 且 o=0.001; 在 3 次 标准 差 之 后 ,概率 几乎 降 至 零 。 因 此 , 例如 Pl(side > 0.23) 人 0， 
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并 且 具 有 这 种 尺寸 的 芯片 必须 明确 地 视 为 异常 。 






































显然 ， 这 是 一 个 非常 简单 的 例子 ， 
构 可 能 非常 复杂 ， 有 几 个 高 概率 区 域 被 低 概率 区 域 包 围 。 


























当然 ， 异 党 的 语义 不 能 标准 化 ， 

















的 方法 对 整个 样本 空间 进行 建 模 的 原 


ma 





“需要 任何 模型 。 然 而 ， 在 现实 生活 中 ， 密 度 的 结 
这 就 是 为 什么 我 们 必须 采用 更 通 

















因 。 





总 是 取决 于 正在 分 析 的 具体 问题 。 











定义 异常 概念 的 





一 种 常用 方法 是 区 分 异常 值 和 新 值 (Novelty)。 前 者 是 数据 集中 包含 的 样本 ， 即 使 它们 与 


其 他 样本 之 间 的 距离 大 于 平均 值 。 因此 , 异常 值 检测 过 程 的 














如 考虑 到 前 





















































因为 在 这 种 情况 下 ， 我 们 








的 数据 集 ; 所以， 给 定 一 个 新 的 数据 集 ， 我 们 感 兴趣 的 是 能 否 将 
或 异常 值 〈 例 如 新 手 技术 人 员 问 我 们 这 个 问题 : 0.25 英寸 x0.25 英寸 芯片 是 否 是 异常 的 )， 














如 果 我 们 收集 了 普通 芯片 的 数据 集 ， 
描述 这 种 情 
当 ||n(D|| 入 


















































n(t)。 





大 )， 它 们 是 异常 值 ， 不 能 代表 真正 的 基础 过 程 pauu。 1 


























则 可 以 使 用 我 们 的 模型 来 回 
况 的 另 一 种 方法 是 将 样本 视 为 一 系列 可 能 受 可 变 噪 声 影响 的 值 : y(t) =x(D) + 
x 时， 样本 可 归 类 为 clean: y(D) 守 x(D)。 相 反 ， 当 |InOD|| 守 |Ix(D| (甚至 更 
































es 


多 ， 因 出 
常 样本 。 




















时 人 们 可 以 非常 容易 地 识别 异常 } 























有 (zl 兰 |x(O 上 的 概率 接近 于 零 ， 我 们 可 以 ; 
管理 异常 和 噪声 样本 的 主要 区 别 通常 在 于 检测 
能 力 。 实 际 上 ， 昌 然 噪声 信号 肯定 会 被 破坏 ， 但 是 我 们 的 目 
正确 标记 。 然 而 ， 了 











目的 是 找 出 这 样 的 奇怪 样本 ( 例 
看 的 例子 ， 如 果 数 据 集中 包含 0.25 英寸 x0.25 英寸 的 艺 片 ， 那 么 它 显 然 是 异常 
值 )。 相 反 ， 新 值 检 测 的 目标 略 有 不 同 ， 





























妥 设 使 用 仅 包含 正常 样本 














于 噪声 的 平均 大 小 通常 比 信号 小 得 
各 异常 视 为 受 异 常 外 部 噪声 影响 的 正 
到 真正 的 异常 并 相应 地 标记 样本 的 


其 视 为 原始 数据 生成 过 程 




















答 这 个 问题 。 












































标 是 尽量 减少 噪声 的 影响 ， 同 
FE 如 已 经 讨论 的 那样 ， 在 本 章 中 ， 我 




















们 感 兴趣 的 是 找 出 不 依赖 于 现 有 标签 的 发 现 方法 。 此 外 ， 为 了 避免 混淆 ， 我 们 总 是 引用 腊 








常 ， 定 义 每 一 次 数据 集 的 内 容 ( 仅 新 值 ， 或 




















中 ， 我 们 将 简要 讨论 数据 集 的 预期 结构 。 


6.2.2 ”数据 集结 构 





在 标准 监督 〈 通 常 也 是 无 监督 ) 任务 中 ， 数 据 集 是 有 望 达到 
每 个 类 的 样本 数 应 该 是 几乎 相同 的 。 相 反 ， 在 本 章 将 要 讨论 的 各 











平衡 的 数据 集 和 (包含 Y 个 样本 )。 





。 如 果 存 在 异常 值 检 测 〈 即 数据 集 存 在 一 部 分 脏 数据 ， 




















来 过 滤 掉 所 有 异常 值 )， 则 Noutliers <N。 
。 如 果 有 新 值 检测 ， 则 Nowes = 0; 或 更 实际 地 ，P(Nowios > 0) 一 0 〈 即 我 们 通常 可 




















以 信任 现 有 样本 并 将 注意 力 集中 在 新 样本 上 )。 
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因此 ， 我 们 需要 找 出 一 种 方法 





折 值 和 异常 值 》 和 我 们 分 析 的 目标 。 在 6.2.2 节 





上 平衡 的 。 换 句 话 说， 属于 
E 务 中 ， 我 们 假设 有 非常 不 



























































非常 明显 : 让 我 们 考虑 一 下 前 面 讨论 过 的 例子 。 如 果 在 1000000 个 处 
后 观察 到 的 异常 率 等 于 0.2%， 则 存在 2000 个 异常 ， 这 对 于 一 个 工作 过 程 来 说 是 




















6.3 直方 图 145 























这 些 标准 的 原因 
理 步 又 2 
个 合理 的 值 。 如 果 这 个 数字 大 得 多 ， 则 意味 着 
经 超出 了 数据 科学 家 的 职责 范围 。 因 此 ， 在 这 种 情况 下 ， 



























































系统 中 应 该 存在 更 严重 的 问题 ， 当 然 这 已 





NN 


我 们 期 望 一 个 包含 大 量 正确 样本 
























































和 极 少 数 异常 (其 至 为 零 ) 的 数据 集 。 在 许多 情况 下 ， 经 验 法 可 以 反映 潜在 数据 生成 过 程 
的 ， 因 此 ， 例 如 有 0.2% 的 异常 ， 那 么 该 以 1000*2 的 比例 来 找 出 实际 的 概率 密度 函数 。 事 
实 上 ， 在 这 种 情况 下 ， 找 出 决定 异常 值 可 区 分 性 的 因素 更 为 重要 。 另 一 方面 ， 如 果 我 们 被 
要 求 仅 执行 新 值 检测 (例如 区 分 有 效 和 恶意 网 络 请 求 )， 则 必须 验证 数据 集 ， 以 便 不 包含 异 
常 ， 但 同时 要 反映 真实 的 数据 处 理 过 程 ( 该 过 程 负 责 所 有 可 能 的 有 效 样本 )。 





























事实 上 ， 如 果 了 


触发 警报 。 相 反 ， 真 实数 据 4 





F 确 




















异常 值 被 错误 地 识 另 
实际 案例 中 ， 最 


























的 因 





| 为 有 效 相 


要 有 





EE 成 过 程 





样本 的 组 成 是 详尽 无 遗 的 ， 那 么 
的 有 限 区 域 可 能 会 导致 误 报 

















王 何 与 高 概率 

















区 域 的 大 偏差 都 足以 



































被 错误 地 识别 为 异常 值 的 有 效 样本 )。 在 最 坏 的 情况 下 ， 如 果 特 和 
本 )， 则 噪声 很 大 的 子 集 也 可 能 确定 假 阴性 








素 是 相 















































高 精度 采 








集 的 测试 可 和 





进行 分 析 之 前 ， 我 强烈 建议 你 仔 


数据 生成 过 程 。 





我 们 现在 可 以 引入 直方 图 


6.3 直方 图 


Li 
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找 








本 xi;E 为 的 数据 集 (为 简单 起 见 ， 我 们 只 考虑 单 变 由 
等 效 )， 我 们 可 以 如 下 定义 m 和 MM: 


使 得 n(5)) 对 应 于 包含 在 条 村 
通过 检测 包含 x 的 条 























与 将 要 测试 的 类 型 相同 的 元 素 进行 训练 。 例 妇 
无 法 代表 总 体 (当然 ， 


已 
已 











结果 《〈 即 未 包含 在 训练 集 
F 被 改变 〈 也 就 是 说 ， 
E。 然而， 在 大 多 数 














F 本 数量 和 收集 样本 的 环境 。 不 言 而 喻 ， 任 何 模型 都 必须 使 














[如果 使 月 











检 


















































的 概念 ， 估 计 这 是 包含 观测 值 的 数 











日 低 精度 仪器 在 化 学 工厂 内 


查 数据 的 性 质 ， 并 询问 是 否 所 有 测试 相 





行 测 
比 数 据 集 更 可 靠 )。 因 此 ， 在 
本 都 来 自 同 一 


























它们 
































避 集 分 布 的 最 简单 方法 。 








概率 密度 函数 近似 值 的 最 简单 方法 是 基于 频率 计数 。 如 果 我 们 有 一 个 包含 m 个 样 
































时 分布， 但 


文 个 过 程 对 于 多 维 样本 完 


m=min(X) HM =max(X) 
我 们 可 以 将 间隔 Gm, WO) 分 成 固定 数量 的 条 柱 〈 其 宽度 可 以 相同 或 不 同 )， 表 示 为 w(b)， 





FE bj; 中 





村 











并 使 用 以 





的 由 
公式 ， 可 以 轻松 获得 
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地 少 们 





本 数 。 此 时 , 给 定 一 个 测试 样本 x, 我们 很 容易 于 
概率 的 近似 值 : 





E 解 ， 
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在 分 析 这 种 方法 的 优 缺 点 之 前 ， 让 我 们 考虑 一 个 简单 的 例子 ， 该 例子 基于 细 分 为 10 
种 不 同类 别人 和 群 的 年 龄 分 布 : 











import numpy as np 
nb_samples = [1000, 800, 500, 380, 280, 150, 120, 100, 50, 30] 
ages = [] 


for n in nb samples: 
i = np.random.uniform(10, 80, size=2) 
a = np.random.uniform(i[0], i[1], size=n) .astype (np.int32) 
ages.append (a) 

ages = np.concatenate (ages) 


只 能 使 用 随机 种 子 1000 ( 即 设置 np.random.seed(1000)) 
来 复制 数据 集 。 


数组 ages 包含 所 有 样本 ， 我 们 想 创建 一 个 直方 图 来 初步 了 解 分 布 。 我 们 需要 使 用 NumPy 
的 函数 np.histrogram()， 该 函数 提供 了 所 有 必要 的 工具 。 我 们 要 解决 的 第 一 个 问题 是 找 出 最 
佳 的 条 柱 数 。 这 对 于 标准 分 布 来 说 很 容易 ， 但 是 如 果 对 概率 密度 没有 先 验 知识 ， 它 可 能 会 
变 得 非常 困难 。 原 因 很 简单 : 由 于 我 们 需要 逐步 逼近 连续 函数 ， 因 此 条 柱 的 宽度 决定 了 最 
终 精 度 。 如 果 密 度 是 平坦 的 〈 例 如 均匀 分 布 )， 则 几 个 条 柱 就 足以 获得 良好 的 结果 。 
相反 ， 在 存在 峰值 时 ， 当 函数 的 一 阶 导 数 较 大 时 ， 在 区 域 中 放置 更 多 《〈 较 短 ) 的 条 柱 
是 有 用 的 ， 而 当 导 数 接近 零 〈 表 示 平 坦 区 域 ) 时 ， 则 将 较 少 的 条 柱 放置 到 区 域 中 是 有 用 的 。 
正如 我 们 将 要 讨论 的 那样 ， 使 用 更 复杂 的 技术 ， 可 以 使 这 个 过 程 变 得 更 容易 ， 而 直方 图 通 
常 基于 最 佳 条 柱 数 量 的 更 粗略 计算 。 特 别 地 ，NumPy 允许 设置 参数 bins='auto'， 这 会 强制 
算法 根据 明确 定义 的 统计 方法 (基于 Freedman Diaconis 估计 量 和 Sturges 公式 ) 自动 选择 
数值 : 

















































































































































































































































































































pins = mar 1 + log,m, | 

在 上 面 的 公式 中 ， 四 分 位 距 〈Interquartile Range，IQR) 对 应 于 第 75 个 百 分 位 数 和 
第 25 个 百 分 位 数 之 间 的 差异 。 由 于 我 们 对 分 布 没有 清晰 的 概念 ， 因 此 更 愿意 依赖 自动 选择 ， 
0 下 面 的 代码 所 示 : 























性 读 

















import numpy as np 
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h, e = np.histogram(ages, bins='auto') 


print('Histograms counts: {}'.format (hn)) 
print('Bin edges: {}'.format(e)) 


代码 输出 如 下 : 


Histograms counts: [177 86 122 165 236 266 262 173 269 258 241 116 458 257 
3 让 二 十 二 .5 汉 ] 

Bin edges: [16. 18.73684211 21.47368421 24.21052632 26.94736842 
29.68421053 32.42105263 35.15789474 37.89473684 40.63157895 43.36842105 
46.10526316 48.84210526 51.57894737 54.31578947 57.05263158 59.78947368 
62.52631579 65,.26315789 68. ] 


因此 ， 该 算法 定义 了 19 个 条 柱 ， 并 输出 频率 计数 和 边缘 ( 即 最 小 值 为 16， 最 大 值 为 
68)。 现 在 我 们 可 以 显示 直方 图 ， 如 图 6-1 所 示 。 


mm Age count 


Number of entries 





1600 1874 2147 2421 2695 2968 3242 3516 FH89 4 和 63 4337 411 484 5158 5432 5705 B79 6253 6526 6800 


0 


图 6-1 测试 分 布 的 直方 图 


该 图 证 实 了 该 分 布 是 非常 不 规则 的 ， 并 且 一 些 平坦 区 域 具 有 峰值 。 如 前 所 述 ， 当 查 
询 是 基于 属于 特定 区 域 的 样本 的 概率 时 ， 直 方 图 是 有 用 的 。 例 如 我 们 可 能 感 兴趣 确定 一 
个 人 年 龄 在 48.84 到 51.58 之 间 的 概率 (相当 于 从 0 开始 的 第 13 个 条 柱 )。 由 于 所 有 的 条 
柱 具有 相同 的 宽度 ， 因 此 我 们 可 以 简单 地 用 ny,(512) (h[12]) 和 m (ages.shape[0]) 之 间 的 比率 
来 近似 该 值 : 








d= el[l] - e[0] 
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p50 = float (h[12]) / float(ages.shape[0]) 





print ('P(48.84 < x < 51.58) = {:.2f} ({:.2f}%)'.format (p50, p50 * 100.0)) 
价 出 如 下 : 
P(48.84 <x < 51.58) = 0.13 (13.43%) 





因此 ， 概 率 的 近似 值 约 为 13.5%， 这 也 通过 直方 图 的 结构 得 到 了 证 实 。 但 是 ， 读 者 应 
该 清楚 地 了 解 到 这 种 方法 有 明显 的 局 限 性 。 首 先 也 是 最 明显 的 是 关于 条 柱 的 数量 和 宽度 。 
了 实 上 ， 小 的 数量 将 产生 无 法 考虑 快速 振荡 的 粗略 结果 ， 而 非常 大 的 数量 会 迫使 形成 有 和 孔 
的 直方 图 ， 因 为 大 多 数 条 柱 都 没有 样本 。 因 此 ， 考 虑 到 在 现实 生活 中 过 到 的 所 有 可 能 的 动 
态 ， 我 们 需要 一 种 更 可 靠 的 方法 。 这 是 我 们 将 在 6.4 节 讨 论 的 内 容 。 
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记 光 放 





dn 




































































用 简单 的 方法 也 可 以 有 效 地 解决 直方 图 不 连续 性 问题 ,。 给 定 样本 x;EX, 假设 我 们 正在 
处 理 以 x; 为 中 心 的 多 元 分 布 ， 则 可 以 考虑 超 体积 (通常 是 超 立 方 体 或 超 球 面 )。 这 种 区 域 的 
扩展 是 通过 带宽 的 常数 及 来 定义 的 (选择 该 名 称 是 为 了 支持 值 为 正 的 有 限 区 域 的 含义 )。 但 
是 ， 我 们 现在 不 只 是 简单 地 计算 属于 超 体积 的 样本 数量 ， 而 是 使 用 具有 一 些 重 要 特征 的 平 
滑 核 函数 KGxi; 刀 来 近似 该 值 : 

K(x;h)is positive with K(x;h)= K(—x;h) 


此 外 ， 出 于 统计 和 实际 的 原因 ， 平 滑 核 函数 还 必须 强制 执行 以 下 积分 约束 〈 为 简单 起 
见 ， 它 们 仅 针对 单 变量 情况 显示 ， 但 扩展 非常 简单 ): 






























































ea 



































































































































[_KGmde=l, | PKCsDdr=1L | x KGshdr < if tel[0,%) 











在 讨论 核 密度 估计 的 技术 之 前 ， 先 展示 一 些 K(*) 的 常见 选择 是 有 帮助 的 。 
6.4.1 高 斯 内 核 


高 斯 内 核 ‘Gaussian Kernel) 是 使 用 最 多 的 内 核 之 一 ， 其 结构 如 下 : 


XT 
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2a? oe 


K(x;h)= 
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形 表 示 如 图 6-2 所 示 。 




















图 6-2 高 斯 内 核 的 图 形 表示 




















鉴于 其 规律 性 ， 高 斯 内 核 是 许多 密度 估计 任务 的 常见 选择 。 但 是 ， 
混合 不 同 的 内 核 ， 因 此 选择 时 必须 考虑 所 有 属性 。 从 统计 数据 中 ， 我 们 知 
被 视 为 峰 度 的 平均 参考 〈 其 与 峰值 和 尾部 的 重量 成 比例 )。 为 了 最 大 限度 
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获 所 有 峰值 的 能 力 。 因 此 ， 在 选择 最 合适 带宽 的 同时 ， 我 们 还 可 以 考虑 其 他 可 以 
化 过 程 的 内 核 。 


6.4.2 ”Epanechnikov 内 核 











这 种 内 核 建 议 用 来 最 小 化 均 方 误差 ， 它 具有 非常 规则 的 和 

















为 倒置 抛物 线 )。 其 公式 如 下 : 








2 
Ka-=o| 1- 和 J/or Ixk1 











由 于 该 方法 不 允许 
道 高 斯 分 布 可 以 
也 提高 内 核 的 选择 
性 ， 我 们 需要 减少 带宽 。 这 意味 着 即使 最 小 的 振荡 也 会 改变 密度 ， 并 且 结 果 是 非常 不 规则 
的 估计 。 另 一 方面 ， 当 天 很 大 《〈 即 高 斯 的 方差 ) 时 ， 近 似 值 变 得 非常 平滑 并 且 可 外 
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能 





失去 捕 
然 地 简 





E 质 (实际 上 ， 它 可 以 被 想象 


引入 常量 e 来 标准 化 内 核 并 满足 所 有 要 求 ( 以 类 似 的 方式 ， 可 以 在 范围 (-h, h)〉 中 扩 


















































展 该 内 核 ， 以 便 与 其 他 函数 更 加 一 致 )。 其 图 形 表示 如 图 6-3 所 示 。 
当 有 一 0 时， 内 核 会 形成 尖峰 。 但 是 ， 鉴 于 其 数学 结构 ， 它 始终 非常 规则 。 
大 多 数 情况 下 ， 没 有 必要 将 其 用 高 斯 内 核 蔡 代 〈 即 使 后 者 具有 稍 大 的 均 方 误差 )。 此 外 ， 由 

















降 ， 特 别 是 在 边界 处 ， 而 高 斯 函数 的 下 降 则 非常 缓慢 。 
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于 函数 在 x= 土 h 时 《对 于 |x|> h，K(x; h) = 0) 是 不 连续 的 ， 这 可 


看 版 权 


台 5 已 
用 可 





致密 度 估 计 的 快速 下 


因 





此 ， 在 
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K(x 有 


-025 











图 6-3 ”Epanechnikov 内 核 的 图 形 表示 

















6.4.3 ”指数 内 核 














指数 内 核 (Exponential Kernel) 是 一 个 具有 尖峰 的 内 核 ， 其 通用 表达 式 如 下 : 


K(x;h)= Ee 


























与 高 斯 内 核 相反 ， 该 内 核 具 有 非常 重 的 尾部 和 尖锐 的 峰值 。 其 图 形 表 示 如 图 6-4 所 示 。 











-25 0 
X 


图 6-4 ”指数 内 核 的 图 形 表示 


可 以 看 出 ， 这 样 的 函数 适用 于 分 布 非常 不 规则 的 模型 ， 其 密度 高 度 集中 在 茶 些 特定 点 周 
图。 而 当 数 据 生 成 过 程 非常 规则 且 表面 光滑 时 ， 误 差 会 变 得 非常 高 。 可 用 于 评估 内 核 ( 和 带 


宽 ) 性 能 


FE 能 的 一 个 好 的 理论 度量 是 平均 积分 平方 误差 (Mean Integrated Square Error, MISE)， 
二 定义 如 下 : 

































































MISE(K)=E| | (px) -pO dr | 


在 前 面 的 公式 中 ，px(x) 是 估算 密度 ， 而 p(x) 是 实际 密度 。 
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不 地 的 是 ，p(x) 是 未 知 的 否则， 我们 不 需要 任何 估计 )。 因 此 ， 这 种 方法 

















论 评估 (例如 Epanechnikov 内 核 的 最 优 性 )。 但 是 ， 科 



































表面 ，MISE 就 会 更 大 。 由 于 指数 会 非常 突然 地 跃升 到 峰值 ， 因 此 它 仅 适 
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只 能 用 于 理 
理解 ， 只 要 内 核 无 法 靠近 实际 





















































] 于 特定 情况 。 在 




















6.4.4 均匀 /Tophat 内 核 


人 
































如 下 : 


Ksh) = forlxl<h 














6.4.5 ”估计 密度 








一 旦 选择 了 内 核 函 数 ， 我 们 就 可 以 使 用 -近邻 方法 构建 概率 密度 函数 的 完全 近似 。 习 














其 他 情况 下 ， 甚 行为 将 导致 更 大 的 MISE， 因 此 最 好 使 用 其 





这 是 最 简单 且 不 太平 请 的 内 核 函 数 ， 其 用 法 类 似 于 构建 直方 











显然 ， 这 是 一 个 在 带宽 限定 的 范围 内 保持 不 变 的 步 





只 有 在 估计 不 需要 





“ 滑 时 才 有 用 。 


























图 的 标准 过 程 。 其 公式 











4 


实 上 ， 给 定 一 个 数据 集 亏 (为 简单 起 见 ， 蕊 全 天 "， 因 此 值 是 实数 )， 很 容易 创建 ， 例 如 一 个 


























ball-tree〈 如 在 第 2 章 中 所 讨论 的 那样 ) 来 高 效 地 将 数据 ; 
我 们 可 以 在 由 带宽 定义 的 羊 径 内 获得 查询 点 疙 的 所 有 邻 域 。 假 设 这 林 


















































并 且 点 数 是 V。 概 率 密度 的 估计 如 下 ; 
































1 光学 
,)= KI 一 一 一 ;7 
PkCxz)) NA | 万 | 








区 分 。 当 数据 结构 准备 就 绪 时 ， 
EF 的 集合 是 钱 = Cl， 7 





不 难 证 明 ， 如 果 带 宽 选 择 得 当 ( 作 为 邻 域 中 包含 的 样本 数量 的 函数 ),， px 的 概率 将 收敛 























到 实际 PCD)。 换 句 话说， 如 果 粒 度 足 够 多 ， 则 近似 密度 和 真实 密度 之 间 的 绝对 误差 将 收敛 





到 零 。px(%)) 的 构建 过 程 如 图 6-5 所 示 。 























此 时 ， 你 很 自然 地 会 问 为 什么 不 为 每 个 查询 使 用 整个 数据 集 ，T 



































使 用 k-NN 方 





法 ? 答案 非常 简单 ， 它 基于 以 下 假设 : 在 处 计算 的 密度 函数 的 值 可 以 容易 地 使 用 局 部 行 




















为 〈 即 对 于 多 变量 分 布 ， 以 » 为 中 心 的 球 ) 进行 插值 


















































并 且 远 点 对 估算 没有 影响 。 因 此 ， 
我 们 可 以 将 计算 限制 为 较 小 的 王子 集 ， 避 免 包含 接近 零 的 时 


在 讨论 如 何 确定 最 佳 带宽 之 前 ， 让 我 们 展示 先前 定义 数据 集 的 密度 估计 使 用 scikit-learn)。 






























































由 于 我 们 没有 任何 特定 的 先 验 知识 ,因此 将 采用 上 共有 不 同 带 宽 (0.1、0.5 和 1.5) 的 高 斯 内 核 。 


所 有 其 他 参数 保持 默认 值 ; 但 是 , KernelDensity 类 允许 设置 度量 (默认 为 metric='euclidean')、 























数据 结构 (默认 为 algorithm='auto'"， 根 据 维度 在 ball-tree 和 kd-tree 之 间 执 行 
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152 第 6 章 


异常 检测 

















及 绝对 容 差 和 相对 容 差 (分 别 为 0 和 10“)。 在 许多 情况 下 ,我 们 没有 必要 更 改 默认 值 ; 但 





















































是 ， 对 具有 特定 功能 的 超大 型 数据 集 更 改 默认 值 可 能 会 有 所 帮助 ， 例 如 更 改 参数 leaf size 
以 提高 性 能 
于 Haversine 距离 的 示例 ， 该 距离 可 用 于 处 理 纬度 和 经 度 )。 其 他 情况 时 ， 我 们 最 好 使 用 超 
立方 体 〈 曼 哈 顿 距离 就 是 如 此 )， 而 不 是 使 用 球体 。 


























(如 第 2 章 中 所 述 )。 此 外 ， 默 认 度 量 不 适 



































于 所 有 任务 例如 标准 文档 显示 基 




















/ 
仆 ~ | 


图 65 w 的 概率 密度 的 估计 (在 属于 邻 域 的 每 个 点 中 雇 








让 我 们 从 实例 化 类 和 拟 合 模 型 开始 : 


from sklearn.neighbors import KernelDensity 


kd O01 
kd 05 
kd 15 


kd O01 
kd 05 
kd 15 





此 时 ， 


.fit(ages.reshape(-1, 
.fit(ages.reshape(-1, 1)) 
.fit(ages.reshape(-1, 


我 们 可 以 调用 方法 score_samples(0) 来 获得 一 组 数 
的 例子 中 ， 考 虑 的 是 以 0.05 为 增 量 的 范 


KernelDensity(kernel='gaussian', bandwidth=0.1) 
KernelDensity(kernel='gaussian', bandwidth=0.5) 
KernelDensity(kernel='gaussian', bandwidth=1.5) 


1)) 





1)) 

















算 e"sw) 以 获得 实际 概率 。 
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版权 





估 内 核 函数 ) 





居 点 的 对 数 密度 估计 (在 我 们 
围 (10,70))。 由 于 值 是 log(p)， 











因此 我 们 有 必要 计 








不 同 密度 的 高 斯 密度 估计 如 图 6-6 所 示 。 





006 


Density 


000 














注意 到 ， 当 带宽 非常 小 《0.1) 时 ， 上 由 


Bandwidth = 0.1 


Bandwidth = 0.5 


Bandwidth = 1.5 


10 20 30 和 0 50 60 
Age 





图 6-6 不 同 带宽 的 高 斯 密度 估计 (0.1 (上 )、0.5 (中 ) 和 1.5 


我 们 可 能 会 




















于 缺少 特定 子 范围 的 样本 ， 密 度 具 有 
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莹 
强 


CF 




















强烈 的 振荡 现象 。 当 有 h= 0.5 时 ， 轮 廓 《因为 数据 集 为 单 变量 ) 变 得 更 加 稳定 ， 但 是 仍然 存 


























我 们 的 例子 中 =1.5)。 


在 由 邻 域 内 部 方差 引起 的 一 些 残 余 的 快速 变化 。 当 h 变 大 时 , 这 种 行为 几乎 完全 被 消除 (在 





个 显而易见 的 问题 是 : 我 们 如 何 确定 最 合适 的 带宽 ? 当然 ， 最 自 








然 的 选择 是 最 小 化 MISE 的 h 值 ， 但 是 ， 正 如 所 讨论 的 那样 ， 这 种 方法 只 能 在 已 知 真实 概 








率 密度 时 使 | 














j。 事 实 上 ， 有 一 些 经 验 标准 已 被 证 实 非常 可 靠 。 给 定 完 
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整 的 数据 集 并 和 瑟 界 ”， 
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个 数据 集 基于 以 下 公式 : 














h=1.06. std(X).m™ 
在 此 实例 中 ， 我 们 获得 以 下 内 容 : 
import numpy as np 


N= float(ages.shape[0]) 
h= 1.06 * np.stdl(ages) * np.power (N, -0.2) 


print('h = {:.3f}'.format (nh)) 





价 出 如 下 : 


h = 2.415 




















因此 ， 我 们 建议 增加 带宽 ， 甚 至 超过 我 们 上 一 个 示例 中 的 带宽 。 第 二 种 方法 基于 四 分 


















































距 (JOR = 03 - 21 或 相当 于 第 75 个 百 分 位 数 至 第 25 个 百 分 位 数 )， 并 且 对 于 非常 强 
内 部 变化 更 为 稳健 : 
h=09emin( sao0: 人 or 
1.34 
计算 如 下 : 
import numpy as np 
IQR = np.percentile(ages, 75) - np.percentile (ages, 25) 





h=0.9 * np.min([np.std(ages), IQR / 1.34]) * np.power (N, -0.2) 


Briit (Mh :Ss {Sf} format(hn)) 





价 出 如下: 


h = 2.051 



































该 值 比 前 一 个 值 小 ， 表 明 px(x) 对 于 较 小 的 超 体积 可 以 更 准确 。 根 据 经 验 ， 即 使 第 二 种 
























































通常 在 不 同 的 情况 中 能 提供 最 佳 结 果 ， 我 也 建议 选择 带宽 最 小 的 方法 。 现 在 让 我 们 使 
= 2.0，Gaussian、Epanechnikov 和 Exponential 内 核 重 新 执行 估算 (我 们 排除 了 均匀 内 





因为 最 终结 果 等 效 于 直方 图 ): 
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from sklearn.neighbors import KernelDensity 


kd gaussian = KernelDensity(kernel='gaussian', bandwidth=2.0) 
kd epanechnikov = KernelDensity(kernel='epanechnikov', bandwidth=2.0) 
kd exponential = KernelDensity(kernel='exponential', bandwidtn=2.0) 





kd gaussian.fit(ages.reshape(-1, 1)) 
kd epanechnikov.fit(ages.reshape(-1, 1)) 





kd exponential.fit(ages.reshape(-1, 1)) 


带宽 等 于 2.0 的 密度 估计 如 图 6-7 所 示 。 
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6-7 ”带宽 等 于 2.0 的 密度 估计 (Gaussian Kemel (上 )、Epanechnikov Kermel (中 ) 和 Exponential Kernel (下 )) 
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正如 预期 的 那样 ，Epanechnikov 和 指数 内 核 都 比 高 斯 内 核 更 具 振 荡 性 (因为 当 有 h 很 小 
时 它们 倾向 于 峰值 );， 然 而 ， 显 而 易 见 的 是 ， 中 心 图 肯定 是 最 准确 的 (就 MISE 而 言 )。 先 
前 我 们 已 经 用 高 斯 内 核 和 有 hh = 0.5 实现 了 类 似 的 结果 , 但 是 在 那 种 情况 下 , 振荡 非常 不 规则 。 
如 上 所 述 ， 当 值 达到 带宽 边界 时 ，Epanechnikov 内 核 具 有 非常 强 的 不 连续 趋势 。 通 过 观察 
估算 的 极 值 ， 我 们 可 以 立即 理解 该 估 值 几乎 垂直 下 降 到 零 这 种 现象 。 而 h = 2 的 高 斯 估计 
似乎 非常 平滑 ， 同 时 它 无 法 捕获 50 到 60 岁 之 间 的 变化 。 对 于 指数 内 核 也 是 如 此 ， 它 表现 
出 其 独特 的 行为 : 非常 尖锐 的 极端 。 在 下 面 的 例子 中 ， 我 们 将 使 用 Epanechnikov 内 核 。 但 
是 , 我 建议 读者 检查 具有 不 同 带宽 的 高 斯 分 布 的 结果 。 这 个 选择 有 一 个 确切 的 基本 原理 ( 没 
有 确凿 的 理由 不 能 丢弃 ): 我 们 认为 数据 集 是 详尽 的 , 并 且 想 要 惩罚 所 有 克服 自然 极端 的 样 
本 。 在 其 他 情况 下 ， 我 们 可 以 优选 非常 小 的 剩余 概率 。 但 是 ， 做 出 这 样 的 选择 时 我 们 必须 


考虑 每 个 特定 目标 。 
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现在 让 我 们 应 用 Epanechnikov 密度 估计 来 执行 异常 检测 的 示例 。 根 据 概率 密度 的 结构 ， 
我 们 决定 在 p(x) < 0.005 处 施加 异常 中 断 ， 如 图 6-8 所 示 。 


























Anomalies (p < 0.005) 到 二 二 a | 


50 D- 7 





二 20 30 
图 6-8 有 异常 中 断 的 Epanechnikov 密度 估计 


红 点 表示 样本 被 归 为 异常 的 年 龄 限制 。 让 我 们 计算 一 些 测 试点 的 概率 密度 : 


4 
Age 


















































import numpy as np 


test data, es: np araytll2,. .9 L887 20% .25% 30 -40 507 55 G0 5.705 75; 
80, 85, 90]) .reshape(-1, 1) 


test densities epanechnikov = 
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np.exp (kd epanechnikov.score samples (test data)) 


起 


工 


test densities epanechnikov 





est densities gaussian 


or age, 





print('p(Age = {:d}) = 
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np.exp (kd gaussian.score samples (test data)) 








density in zip(np.squeeze (test data), 


























































































































) 
{:.7f} ({})'.format (age, density, "AnomalLy" if 
































density < 0.005 else 'Normal')) 

代码 的 输出 如 下 : 

p(Age = 12) = 0.0000000 (Anomaly) 

p(Age = 15) = 0.0049487 (Anomaly) 

p(Age = 18) = 0.0131965 (Normal) 

p(Age = 20) = 0.0078079 (Normal) 

p(Age = 25) = 0.0202346 (Normal) 

p(Age = 30) = 0.0238636 (Normal) 

p(Age = 40) = 0.0262830 (Normal) 

pb(Age = 50) = 0.0396169 (Normal) 

p(Age = 55) = 0.0249084 (Normal) 

p(Age = 60) = 0.0000825 (Anomaly) 

p(Age = 65) = 0.0006598 (Anomaly) 

p(Age = 70) = 0.0000000 (Anomaly) 

p(Age = 75) = 0.0000000 (Anomaly) 

p(Age = 80) = 0.0000000 (Anomaly) 

p(Age = 85) = 0.0000000 (Anomaly) 

p(Age = 90) = 0.0000000 (Anomaly) 

正如 我 们 看 到 的 那样 ， 函 数 的 突然 下 降 造 成 了 一 种 垂直 分 离 。15 岁 的 人 几乎 处 于 边界 
(p(15) = 0.0049)， 而 上 限 的 行为 更 加 极端 。 中 断 约 为 $8 岁 ， 但 60 岁 的 样本 概率 比 57 岁 的 
样本 概率 低 10 倍 〈 初 始 直方 图 也 证 实 了 这 一 点 )。 由 于 这 只 是 一 个 教学 的 例子 ， 因 此 很 容 
易 检 测 异 常 ， 然 而 ， 如 果 没 有 标准 化 算法 ， 即 使 稍微 复杂 的 分 布 ， 也 会 产生 一 些 问题 。 特 
别 是 在 这 种 简单 的 单 变量 分 布 的 特定 情况 下 ， 异 常 通常 位 于 尾部 。 

因此 ， 我 们 假设 给 定 总 体 密度 估计 px(7): 

Pxr(x,) pr(x,)Vx, Ee Anomalies CX and x, EX 

当 考 虑 包含 所 有 样本 (正常 样本 和 异常 样本 ) 的 数据 集 时 ， 这 种 行为 通常 是 不 正确 的 ， 
并 且 数 据 科学 家 在 决定 阔 值 时 必须 小 心 。 即 使 它 很 明显 ， 也 最 好 通过 从 数据 集中 删除 所 有 
异常 来 学 习 正 态 分布 ， 以 便 将 异常 所 在 的 区 域 展 平 (px(x) 一 0)。 由 此 ， 先 前 的 标准 仍然 有 















































效 ， 
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容易 地 比较 不 同 的 密度 以 进 
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在 继续 下 一 个 例子 之 前 , 我 建议 通过 创建 人 工 漏洞 和 设置 不 同 的 闷 值 来 修改 初始 分 布 。 
此 外 ,我 建议 读者 根据 年 龄 和 身高 生成 双 变量 分 布 ( 例 如 基于 某 些 高 斯 的 总 和 )， 并 创建 一 














个 简单 模型 ， 使 该 模型 能 够 检测 参数 标识 的 不 太 可 能 出 现 的 所 有 人 。 
基于 KDD Cup 99 数据 集 的 异常 检测 








此 示例 基于 KDD Cup 99 数据 集 ， 该 数据 集 收集 了 一 系列 正常 和 恶意 的 互联 网 活动 。 特 

















别 地 ， 我 们 将 重点 关注 HITP 请 求 的 子 集 ， 它 具有 4 个 属 


一 
上 TF 
bt 


















































和 行为 (这 更 像 是 一 个 分 类 元 素 ， 但 它 对 我 们 立即 访问 某 些 特定 攻击 内 容 很 有 帮助 )。 
\ 式 log(x + 0. ~ 
变量 进行 归 一 化 〈 因 此， 在 使 用 新 样本 模拟 异常 检测 时 必须 应 用 该 值 )。 当 然 ， 逆 变换 如 下 : 














原始 值 是 0 附近 非常 小 的 数字 ， 所 有 版 本 (包括 scikitlearn one) 都 使 用 公 


















































=log(x+0.1)=>x=e’ -0.1 


让 我 们 首先 使 用 scikit-learn 内 置 函 数 fetch kddcup990 加 载 和 准备 数据 鲁 






































percent10=True 将 数据 限制 为 原始 集合 的 10%〔 非 常 大 )。 当 然 ， 我 建议 读者 也 使 























据 集 和 完整 参数 列表 (包含 34 个 数值 ) 进行 测试 。 





























E: 持续 时 间 、 源 字 节 、 J 


集 ， 然 后 选择 
j 整 个 数 


在 这 种 情况 下 ， 我 们 还 选择 subset='http'， 它 已 经 准备 好 包含 大 量 正常 连接 和 一 些 特定 


























攻击 : 


from sklearn.datasets import fetch kddcup99 


kddcup99 = fetch kddcup99 (subset='http', percent10=True, random state=1000) 


xX 
Y 


kddcup99['data'] .astype (np.float64) 
kddcup99['target'] 


print('Statuses: {}'.format (np.unique (Y) ) ) 


print('Normal samples: {}'.format (X[Y == b'normal.'].shape[0])) 
print('Anomalies: {}'.format (X[Y != pb'normal.'] .shape[0])) 
渝 出 如 下 : 





Statuses: [b'back.' b'ipsweep.' b'normal.' b'phf.' b'satan. 


samples: 56516 Anomalies: 2209 





| 式 


因此 ， 这 里 有 4 种 类 型 的 攻击 (其 细节 在 此 情况 中 并 不 重 






































'] Normal 






































要 )， 其 中 包含 2209 个 恶意 
样本 和 56516 个 正常 连接 。 为 了 进行 密度 估计 ， 我 们 将 考虑 把 这 3 个 分 量 作为 独立 的 随机 



































变量 (虽然 这 不 是 完全 正确 ， 但 它 可 以 是 一 个 合理 的 起 点 ) 进行 初步 考虑 








dl 
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但 最 终 





最 终 估 





算是 
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基于 完整 的 联合 分 布 。 当 我 们 想 要 确定 最 佳 带 宽 时 ， 则 要 执行 基本 的 统计 分 析 : 
import numpy as np 
means = np.mean (X, axis=0) 
stds = np.std(X, axis=0) 
IQRs = np.percentile(X, 75, axis=0) - np.percentile (xX, 25, axis=0) 
代码 的 输出 如 下 : 
Means: [-2.26381954 5.73573107 7.53879208] 
Standard devations: [0.49261436 1.06024947 1.32979463] 
IQRs: [0. 0.34871118 1.99673381] 
持续 时 间 (第 一 个 分 量 ) 的 IQR 为 空 ， 因 此 ， 大 多 数值 是 相等 的 。 让 我 们 绘制 直方 














来 确认 这 一 点 ， 如 图 6-9 所 示 。 


60000 


50000 


40000 


30000 


Number of entries 


20000 
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-2303 -1739 -1176 -0613 -0.050 
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Duration 











3893 4456 5020 5583 6146 6709 7.272 











图 6-9 第 一 个 分 量 的 直方 








图 








(持续 时 间 ) 























正如 所 料 ， 这 个 分 量 不 是 很 重要 ， 因 为 只 有 




















小 部 分 样本 具有 不 同 的 值 。 因 此 ， 在 此 








示例 中 , 我 们 将 跳 过 它 并 仪 使 用 源 字 节 和 目标 字 节 。 现在 让 我 们 按照 前 面 的 说 明 计算 带宽 : 


import numpy as np 


N= float(X.shape[0]) 
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h0 = 0.9 * np.min([stds[0], IQRs[0] / 1.34]) 


hl = 0.9 * np.min([stds[1], IQRs[1] / 1.34]) 
h2 = 0.9 * np.min([stds[2], IQRs[2] / 1.34]) 


村 HD 


.power (N, -0.2) 


* np.power (N, -0.2) 
* np.power (N, -0.2) 


print('h0 = {:.3f}, hl = {:.3f}, h2 = {:.3f}'.format (ho0, hil, h2)) 





丛 出 如 下 : 


ho = 0.000; hi = O0026; h2 © 0.133 








排除 第 一 个 值 ， 我 们 需要 在 hl 和 h2 之 间 进 行 选择 。 由 于 值 的 大 小 并 不 大 并 且 我 们 想 























要 有 较 高 的 选择 性 ， 因 此 我 们 将 设置 h = 0.025 并 使 用 高 斯 内 核 , 该 内 核 提 供 了 良好 的 平滑 
性 。 包含 第 一 个 分 量 的 拆 分 输出 的 密度 估计 〔 使 用 seaborn 可 视 化 库 获 得 ， 其 中 包含 一 个 内 

















部 KDE 模块 )， 如 图 6-10 所 示 。 


Duration Source bytes 








， 到 
0 本 0 


4 2 0 2 4 6 8 10 -00 8 6 4 2 0 2 4 6 8 10 人 忆 二 























图 6-10 ”正常 连接 (上) 和 恶意 攻击 























Destination bytes 








b 


了 2 0 2 


(下 ) 的 密度 估计 


图 6-10 的 上 面 3 个 图 显示 正常 连接 的 密度 ， 而 下 面 3 个 图 显示 恶意 攻击 的 密度 。 正 


如 预期 的 那样 ， 第 一 个 分 量 〈 持 续 时 间 ) 在 两 种 情况 下 几乎 相同 ， 可 以 丢弃 。 而 源 字 节 
和 目标 字 节 都 表现 出 非常 不 同 的 行为 。 在 不 考虑 对 数 变换 的 情况 下 ,正常 连接 平均 发 送 5 








字 节 ， 且 方差 非常 小 ， 将 潜在 范围 扩展 到 间隔 (4,6)。 响 应 
10 之 间 ， 密 度 从 10 开始 非常 低 。 相 反 ， 恶 意 攻击 的 源 字 节 和 目标 字 节 都 












































低 的 一 个 对 应 于 -2， 较 高 的 一 个 分 别 对 应 大 约 11 和 9 (与 正常 








考虑 完整 的 联合 概率 密度 , 也 不 难 理解 大 多 数 攻击 发 送 更 多 输入 数据 并 接收 更 长 1 
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区 域 的 最 小 重合 )。 





有 更 大 的 方差 ， 值 介 于 4 和 
了 两 个 峰值 : 较 























即使 不 





向 应 (而 
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连接 持续 时 间 不 会 受到 强烈 影响 )。 
我 们 现在 可 以 通过 仅 选 择 正常 样本 〔 即 对 应 于 Y== bmormal.') 来 训练 估计 





直 



































from sklearn.neighbors import KernelDensity 


X= X[:, 1:] 


kd = KernelDensity(kernel='gaussian', bandwidth=0.025) 
kd.fit(X[Y == pb'normal.']) 








让 我 们 计算 正常 样本 和 异常 样本 的 密度 : 








Yn = np.exp (kd.score samples (X[Y == pb'normal.'])) 
Ya = np.exp (kd.score samples(X[Y != pb'normal.'])) 


wal 
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print('Mean normal: {:.5f} - Std: {:.5f}'.format (np.mean (Yn), np.std(Yn))) 
print('Mean anomalies: {:.5f} - Std: {:.5f}'.format (np.mean (Ya),np.std (Ya))) 


输出 如 下 : 


Mean normal: 0.39588 - Std: 0.25755 
Mean anomalies: 0.00008 - Std: 0.00374 


显然 ， 当 例如 px(x) < 0.05〈 考 虑 3 个 标准 差 ) 时 , 我 们 可 以 预期 到 异常 ,得 到 px(x) E 





























(0, 0.01))， 而 Yn 的 中 位 数 约 为 0.35。 这 意味 着 至 少 一 半 样 本 的 px(x) > 0.35, 但 是 ,经 过 简 





单 的 计数 检查 后 ， 我 们 得 到 以 下 信息 : 


























print (np.sum(Yn < 0.05)) 

print (np.sum(Yn < 0.03)) 

print (np.sum(Yn < 0.02)) 

print (np.sum(Yn < 0.015)) 

输出 如 下 

3147 

1778 

1037 

702 

由 于 有 56516 个 正常 样本 ， 我 们 决定 选择 两 个 闵 值 (还 要 考虑 异常 离 群 值 )。 


























。 正常 连接 : px(x) > 0.03。 
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中 危 警 报 : 0.03( 涉 及 3.1% 的 正常 样 











高 危 警 报 : 0.015〔 在 这 种 情 
此 外 ， 





过 第 二 个 
过 第 二 -7 





print (np.sum(Ya < 0.015) ) 
























































本 ， 可 被 识别 为 误 报 )。 
况 下 ， 只 有 1.2% 的 正常 样 
个 警报 ， 我 们 捕获 以 下 情况 : 













































































本 可 以 触发 警报 )。 












































输出 如 下 : 

2208 

因此 , 只 有 一 个 异常 样本 的 px(x) > 0.015 (有 2209 个 向 量 ), 证 实 了 这 种 选择 是 合理 的 。 
前 面 的 结果 也 通过 密度 的 直方 图 得 到 证 实 ， 如 图 6-11 所 示 。 

Anomaly densities Normal densities 

. T1000 E 

0000 0025 0050 Denaity 100 0125 0150 0175 00 02 04 Density 08 0 12 

图 6-11 异常 密度 ( 左 ) 和 正常 密度 〈 右 ) 的 直方 图 

我 们 并 不 需要 忧虑 正 态 分 布 的 右 侧 ， 那 是 因为 异常 高 度 集中 在 左 侧 。 在 这 个 区 域 ， 有 
大 多 数 异 常 现象 ， 因 此 也 是 最 关键 的 。 原 因 与 特定 域 严格 相关 (其 中 输入 和 输出 字 节 对 于 
不 同类 型 的 请 求 非常 相似 )， 并且 在 更 稳定 的 解决 方案 中 ， 有 必要 考虑 其 他 参数 〈 例 如 完整 


























的 KDD Cup 99 数据 集 )。 但 是 ， 出 于 教学 目的 ， 我 们 可 以 定义 一 个 简单 的 函数 (基于 先前 


定义 








的 阐 值 )， 根 据 源 字 节 和 目标 字 
import numpy as np 


def is anomaly (kd, source, 
xs = np.log(source + 0.1) 
xd = np.log(destination + 0.1) 
data = np.array ([[xs, xd]]) 
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节 的 数量 《〈 非 对 数 的 ) 检查 连接 的 状态 : 


destination, medium thr=0.03, high thr=0.015) : 
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density = np.exp(kd.score samples (data)) [0] 
if density >= medium thr: 

return density, 'Normal connection' 
elif density >= high thr: 

return density, 'Medium risk'"' 
else: 

return density, "High risk' 

















我 们 现在 可 以 用 3 个 不 同 的 例子 来 测试 函数 : 








print('p {:.2f}) - {}'.format(*is anomaly (kd, 200, 1100))) 
print('p = {:.2f} - {}'.format(*is anomaly (kd, 360, 200))) 
print('p = {:.2f} - {}'.format(*is anomaly (kd, 800, 1800))) 
输出 如 下 : 

p= 0.30 - Normal connection 

p= 0.02 - Medium risk 

p= 0.00000 - High risk 








总 的 来 说 ， 我 们 也 可 以 考虑 源 字 节 和 目标 字 节 密度 的 双 变 量 图 ， 如 图 6-12 所 示 。 


11 





Destination Bytes (logarithmic) 


La 
Deb 


8 9 
Source Bytes (logarithmic) 




















图 6-12 源 字 节 和 目标 字 节 密度 的 双 变 量 图 
图 6-12 可 以 确认 ， 虽然 攻击 通常 涉及 大 量 的 输入 字 节 ， 即 使 它们 占据 了 该 区 域 的 极端 


部 分 ， 但 其 响应 也 与 正常 访问 的 响应 非常 相似 。 作 为 练习 ， 我 建议 读者 使 用 整个 KDD Cup 
99 数据 集训 练 模型 ， 并 找 出 最 佳 闪 值 以 检测 高 危 和 中 危 风 险 的 攻击 。 
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6.6 单 类 支持 向 量 机 











单 类 支持 向 量 机 的 概念 由 Scholkopf B、Platt J C、Shawe-Taylor ] C、Smola AJ 和 Williamson 


RC 在 Estimating the Support ofa High-Dimensional Distribution 一 文中 提出 ， 是 一 种 新 颖 的 分 
类 方法 ， 从 真实 数据 生成 过 程 中 执 取 样本 或 异常 值 的 方法 。 让 我 们 从 想 要 实现 的 目标 开始 : 























找到 一 个 无 监督 模型 ， 给 定 样本 x;， 可 以 生成 二 进 
制 输出 六 (通常 ，SVM 结果 是 双 极 性 的 : -1 和 +1 )。 
因此 ， 如 果 x; 是 离 群 值 ， 则 六 = +1; 反之 ， 如 果 
Xi 是 异常 值 〈 更 准确 地 在 前 面 提 到 的 资料 中 ， 作 者 个 \ 
假设 对 于 构成 训练 集 的 大 多 数 内 部 因子 ， 结 果 为 
1)， 则 六 = -1。 初 看 ， 它 似乎 是 一 个 经 典 的 监督 问 
题 , 但 是 这 不 是 因为 它 不 需要 标记 数据 集 。 实 际 上 ， outlier (label-1) 
给 定 包 含 m 个 样本 %E 因 "的 数据 集 闷 我们 将 使 用 
单个 固定 类 来 对 模型 进行 训练 ， 目 标 是 找到 最 大 化 
了 与 原点 之 间距 离 的 分 离 的 超 平面 。 首 先 ， 让 我 们 
考虑 一 个 简单 的 线性 情况 ， 如 图 6-13 所 示 。 



























































































































































分 离 超 平面 


Training set 
(label +1) 








训练 模型 以 找 出 与 原点 的 距离 最 大 的 超 平面 @ 6 13 城 性 单 闫 支持 向 量 机 场景， 训 红 入 























参数 。 超 平面 一 侧 的 所 有 样本 都 应 该 是 内 点 ， 输 出 。 二 原 风 点 分 开 上 具有 最 大 的 余 : 





























标签 是 +1， 而 剩 下 的 所 有 样本 都 被 认为 是 异常 值 ， 























外 生 








输出 标签 是 -1。 此 标准 看 似 有 效 ， 但 它 仅 适 用 于 线性 可 分 离 的 数据 集 。 标 准 SVM 通过 将 















































数据 集 (通过 函数 g(*)) 投影 到 特征 空间 D 来 解决 此 问题 ， 在 其 中 获取 此 属性 : 








GT): XD 











特别 地 ， 考 虑 到 问题 的 数学 性 质 ， 如 果 选 择 内 核 ， 则 投影 在 计算 上 变 得 轻 量 级 。 换 句 























话说 ， 我 们 想 要 使 用 具有 以 下 属性 的 函数 : 
K(%,T,)= G(T) » G(X,) 














投影 函数 g(*) 存 在 于 非常 容易 获得 的 条 件 〈( 称 为 Mercer 条 件 ) 下 〔 即 在 实 子 空间 中 ， 
内 核 必 须 为 正 半 定 )。 这 种 选择 的 原因 与 解决 问题 所 涉及 的 过 程 密切 相关 (更 详细 的 说 明 可 
以 在 Machine Learning Algorithms, Second Edition 中 找到 )。 但 是 ,不 熟悉 SVM 的 读者 不 必 
担心 ， 因 为 我 们 不 会 讨论 太 多 的 数学 细节 。 要 记 住 的 最 重要 的 事情 是 ， 不 支持 任何 内 核 的 































































































通用 投影 会 导致 计算 复杂 性 的 急剧 增加 《特别 是 对 于 大 型 数据 集 )。 
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K(。 9) 最 常见 的 选择 之 一 是 径 向 基 函 数 〈 已 在 第 3 章 中 进行 了 分 析 ): 


2 
-5 





























K(x,x,)=e1 

男 一 个 有 用 的 内 核 是 多 项 式 内 核 : 

K(W,7,)=(a+ br eX,) 

在 这 种 情况 下 ， 指 数 c 定义 多 项 式 函 数 的 次 数 ， 该 次 数 与 特征 空间 的 维度 成 正比 。ff 
是 ， 内 核 及 其 超 参 数 的 选择 取决 于 上 下 文 ， 并 且 没 有 始终 有 效 的 通用 规则 。 因 此 ， 对 于 每 
个 问题 ， 我 们 都 需要 进行 初步 分 析 并 且 通常 还 需要 进行 网 格 搜索 以 做 出 最 合适 的 选择 。 一 
旦 选择 了 内 核 ， 问 题 可 以 通过 以 下 方式 表示 : 

, 1 2 1 on 
MU Fp By i -| 
subjectto Ww G(X)p-E VxXeXHE EO 

不 进行 全 面 的 讨论 (超出 了 本 书 的 范围 )， 我 们 只 将 注意 力 集 中 在 一 些 重要 的 内 容 上 。 
首先 ， 决 策 函 数 如 下 : 




















































































































yi=sign(We* G(X)—p) 
解决 方案 中 涉及 的 数学 过 程 允许 我 们 简化 以 下 表达 式 ， 但 是 最 好 保留 原始 表达 式 。 如 
果 读 者 具有 监督 学 习 的 基本 知识 ， 则 可 以 容易 地 Pe 
理解 权重 向 量 和 样本 x; 投影 之 间 的 点 积 可 以 确定 
x 相对 于 分 离 超 平面 的 位 置 。 实 际 上 ， 如 果 两 个 向 
量 之 间 的 角度 小 于 90。 (mw/2)， 则 点 积 是 非 负 的 。 dl 


当 角 度 恰 好 是 90°( 即 向 量 是 正 交 的 ) 时 它 等 于 零 ， sm 
当 和 角度 在 90°> 和 180° 之 间 时 它 等 于 负数 ,此 决策 过 A a 
程 如 图 6-14 所 示 。 Outlier (label -1) inlier (label +1) 

权重 向 量 与 分 离 超 平面 正 交 。 样 本 x; 被 识别 
为 一 个 内 点 ， 因 为 点 积 为 正 旦 大 于 阐 值 p。 相 反 ， 
二 被 标记 为 异常 值 ， 因 为 决策 函数 的 符号 是 负 的。 
术语 & (6 三 0) 被 称 为 松弛 变量 , 并 且 引 入 它们 是 为 
了 使 异常 值 和 内 点 之 间 的 边界 更 灵活 。 实 际 上 ， 如 果 这 些 变量 都 等 于 零 〈( 并 且 为 了 简单 起 
见 ， 令 p=1)， 则 优化 问题 所 施加 的 条 件 变 为 : 

WwW G(T)1VT eX 


这 意味 着 我 们 必须 将 所 有 训练 样本 视 为 内 点 ， 因 此 必须 选择 分 离 超 平 面 ， 以 便 所 有 
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图 6-14 ”支持 向 量 机 中 的 决策 过 程 
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Xi 部 位 于 同一 侧 。 但是， 松弛 变量 的 使 用 通过 定义 软 边 界 将 允许 更 大 的 灵活 性 。 每 个 训练 
样本 都 与 一 个 变量 & 相关 联 ， 当 然 ， 问 题 使 它们 最 小 化 。 然 而 ， 通 过 这 个 技巧 ， 一 些 边 
界 样本 即使 继续 被 识别 为 内 点 也 可 以 位 于 超 平面 的 相对 侧 〈 足 够 接近 )。 要 考虑 的 最 后 一 
个 元 素 是 此 情况 中 最 重要 的 元 素 之 一 ， 它 涉及 超 参 数 v E (0, 1)。 在 上 述 资料 中 ， 作 者 证 
明了 只 要 jp 关 0, v 就 可 以 被 解释 为 训练 样本 的 分 数 的 上 限 ， 这 实际 上 是 异常 值 。 在 6.2. 
节 我 们 已 经 说 过 ， 在 新 值 检 测 问 题 中 ， 数 据 集 必须 是 干净 的 。 不 幸 的 是 ， 事 情 并 非 总 是 
如 此 。 因 此 ,v 和 松弛 变量 的 联合 使 用 使 我 们 能 够 处 理 包含 一 小 部 分 异常 值 的 数据 集 。 就 
概率 而 言 ， 如 果 蕊 是 从 噪声 部 分 破坏 的 数据 生成 过 程 中 提取 的 ， 则 ” 是 在 了 中 找到 异常 
值 的 概率 。 

现在 ， 让 我 们 分 析 一 个 用 元 组 〈 年 龄 ， 身 高 ) 识别 的 学 生 数 据 集 的 二 维 示例 。 我 们 将 
从 二 元 高 斯 分 布 中 生成 2000 个 的 内 点 ， 并 均匀 采样 200 个 测试 点 : 





















































; 








上 





















































































































































import numpy as np 


nb samples = 2000 
nb test samples = 200 


X = np.empty(shape=(nb samples + nb test samples, 2)) 


X[:nb samples] = np.random.multivariate normal([15, 160], np.diag([1.5,10]), 
size=nb_ samples) 

X[nb samples:, 0] = np.random.uniform(11, 19, size=nb test samples) 

X[nb samples:, 1] = np.random.uniform(120, 210, size=nb test samples) 

















由 于 比例 不 同 ， 在 训练 模型 之 前 最 好 对 数据 集 进行 标准 化 : 











from sklearn.preprocessing import StandardScaler 


StandardScaler () 
Xs = ss.fit transform (XxX) 


SS 





一 个 标准 化 的 数据 集 如 图 6-15 所 示 。 

主要 点 还 是 由 内 点 组 成 ， 部 分 测试 样本 位 于 同一 高 密度 区 域 。 因 此 ， 我 们 可 以 合理 地 
假设 在 包含 所 有 样本 的 数据 集中 大 约 有 20% 的 异常 值 〈( 因 此，v=0.2)。 当 然 ， 这 样 的 选择 
是 基于 我 们 的 假设 ， 并 且 在 任何 现实 场景 中 ，v 的 值 必须 始终 反映 数据 集中 预期 异常 值 的 
实际 百分比 。 当 这 条 信息 不 可 用 时 ,最 好 从 较 大 的 值 ( 例 如 v=0.5) 开始 ， 然 后 逐渐 减 小 直 
到 找到 最 佳 配置 〈 即 错误 分 类 的 概率 最 小 )。 
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图 6-15 单 类 支持 向 量 机 示例 的 数据 集 


同样 重要 的 是 要 记 住 ， 训 练 过 程 有 时 可 以 找到 一 个 次 优 解 。 因 此 ， 一 些 内 点 可 以 标记 
为 异常 值 。 在 这 些 情况 下 ， 最 好 的 策略 是 测试 不 同 内核 的 效果 ， 例 如 在 使 用 多 项 式 内 核 时 ， 
增加 其 复杂 性 ， 直 到 找到 最 优 解 〈 不 一 定 排除 所 有 错误 ) 为 上 上。 


现在 让 我 们 使 用 RBF 内 核 〈 特 别 适 用 于 高 斯 数据 生成 过 程 ) 初始 化 scikit-learn 的 
OneClassSVM 类 的 实例 并 训练 模型 : 














from sklearn.svm import OneClassSVvM 


ocsvm = OneClassSVM(kernel='rbf', gamma='scale', nu=0.2) 
Ys = ocsvm.fit predict (Xs) 


我 们 基于 以 下 公式 选择 了 建议 值 gamma='scale': 


1 
nestd(X) 


这 种 选择 通常 是 最 佳 起 点 ， 可 以 更 改 (根据 结 果 是 否 可 接受 而 增加 或 减少 )。 在 我 们 的 
例子 中 ， 由 于 数据 集 是 二 维 的 (n=2) 且 标准 化 的 (st4(8) = 1)， 所 以 y= 0.5， 这 对 应 于 单 
位 方差 高 斯 分 布 〈 因 此 ， 我 们 应 该 期 望 它 是 最 合适 的 选择 )。 此 时 ， 我 们 可 以 通过 突出 显示 
异常 值 来 绘制 结果 ， 如 图 6-16 所 示 。 
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图 6-16 “分 类 结果 《〈 左 ) 和 测试 集中 的 异常 值 〈 右 ) 























在 图 6-16 左 图 中 ， 模 型 已 成 功 识别 数据 集 的 较 高 密度 部 分 ， 并 且 还 在 密集 斑点 的 外 部 
区 域 中 将 一 些 样本 标记 为 异常 值 。 它 们 对 应 于 二 维 高 斯 下 的 概率 较 低 的 值 。 在 我 们 的 例子 
中 ， 假 设 它们 是 应 该 被 滤 除 的 噪声 样本 。 在 右 图 中 ， 我 们 可 以 只 看 到 异常 区 域 ， 当 然 ， 这 
是 高 密度 点 的 补充 。 我 们 可 以 得 出 这 样 的 结论 : 即使 有 点 容易 过 度 拟 合 ， 单 类 SVM 也 能 
够 帮助 我 们 以 非常 小 的 错误 概率 识别 新 值 。 由 于 数据 集 的 结构 〈 然 而 ， 在 许多 情况 下 很 党 
见 )， 我 们 可 以 使 用 RBF 内 核 进行 轻松 管理 。 遗 憾 的 是 ， 对 于 高 维 数据 ， 这 种 简单 性 经 常 
丢失 ， 并 且 需 要 更 彻底 的 超 参 搜索 来 最 小 化 错误 率 。 


6.7 基于 孤立 森林 的 异常 检测 

























































































LiuF TTing K M 和 ZhouZ 在 1solation Forest, Eighth IEEE International Conference on 
Data Mining 中 提出 了 一 种 非常 强大 的 异常 检测 方法 。 该 方法 基于 集成 学 习 的 总 体 框 架 。 由 
于 这 个 主题 非常 广泛 ， 并 且 主 要 涵盖 在 有 监督 的 机 器 学 习 书籍 中 ， 我 们 建议 读者 在 必要 时 
查阅 相关 资源 。 所 以 ， 在 这 种 情况 下 ， 我 们 将 在 没有 那么 详细 地 引用 所 有 基础 理论 的 背景 
来 描述 模型 。 

首先 ， 我 们 说 森林 是 一 组 称 为 决策 树 的 独立 模型 。 顾 名 思 义 ， 与 算法 相 比 ， 它 们 是 分 
割 数 据 集 的 一 种 非常 实用 的 方法 。 从 根 开始 ， 对 于 每 个 节点 ， 选 择 一 个 特征 和 一 个 阔 值 ， 
并 将 样本 分 成 两 个 子 集 〈 非 二 叉 树 的 结构 不 是 这 样 ， 但 一 般 来 说 ， 模 型 所 涉及 的 树 都 是 二 
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叉 树 )， 如 图 6-17 所 示 。 
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Feature(U) < Thr(2) 
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在 有 监督 的 任务 中 ， 元 组 (特征 ， 


















































图 6-17 二叉树 的 通用 结构 





的 。 这 意味 着 我 们 的 目标 通常 是 拆 分 节点 ， 以 便 生成 的 子 集 包含 属 于 单个 类 





当然 ， 容 易 理解 的 是 ， 当 所 有 叶子 者 
在 此 特定 的 上 下 文中 ， 我 们 从 一 个 











F 常 特殊 ( 


b 是 纯净 的 或 者 达到 最 大 深度 
日 经 过 经 验 订 




















闪 值 ) 是 根据 使 叶子 的 杂质 最 小 化 的 特定 标准 选择 


的 大 多 数 样本 。 








呈 结 束 。 相 反 ， 





时 ， 该 过 种 
E 明 ) 的 假设 开始 : 如 果 属 于 孤 








立 森 林 的 树 在 每 次 选择 随机 特征 和 随机 闭 值 时 都 会 生长 ， 那 么 从 根 到 包含 任何 异常 值 的 叶 
子 的 路 径 的 平均 长 度 ， 比 隔离 异常 值 所 需 的 长 度 更 长 。 通 过 考虑 一 个 二 维 随 机 分 区 实例 ， 


我 们 可 以 容易 地 理解 这 种 假设 的 原因 ， 如 



































图 6-18 二 维 随 机 分 














区 : 








我 们 可 以 观察 到 ， 内 点 通常 





高 密度 区 域 
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低 密度 区 域 


一 个 内 点 是 孤立 


属于 高 密度 区 域 ， 需 要 更 多 的 分 区 来 隔离 样本 。 相 反 ， 我 
区 域 中 的 异常 值 ， 因 为 所 需 的 粒度 与 点 的 密度 成 


图 6-18 所 示 。 








高 密度 区 域 








低 密 度 区 域 





























们 可 以 用 较 少 的 分 区 步骤 检测 位 于 低 密 度 
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的 ( 左 ); 检测 到 属于 低 密度 区 域 的 异常 值 〈 右 ) 
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正比 。 因 此 ， 建 立 孤 立 森 林 的 目的 是 测量 所 有 内 点 的 平均 路 径 长 度 ， 并 将 其 与 新 样本 所 需 
的 路 径 长 度 进行 比较 。 当 这 样 的 长 度 较 短 时 ， 成 为 异常 值 的 概率 增加 。 作 者 提出 的 异常 分 
数 基 于 指数 函数 : 





















































_avg (h(t)) 
c(m) 





Ss(X,,m)=€ 

其 中 , m 是 属于 训练 集 了 的 样本 数 ,，ave(h(xi)) 是 考虑 所 有 树 的 样本 x; 的 平均 路 径 长 度 ， 
c(m) 是 仅 依 赖 于 m 的 规范 化 项 。 当 s(xi, m) 一 1 时 ， 样 本 x 被 识别 为 异常 。 因 此 ， 当 s(*) 在 
0 和 1 之 间 时 ， 如 果 我 们 将 阔 值 视 为 0.5， 则 正常 样本 与 值 s(x;, m) < 0.5 相关 联 。 

我 们 现在 考虑 一 下 葡萄 酒 数据 集 ， 其 中 包含 178 个 x;E 久 样本 ， 其 中 每 个 特征 都 是 
特定 的 化 学 性 质 〈 例 如 酒精 、 蔷 果 酸 、 灰 分 等 )， 训 练 珀 立 森 林 以 检测 新 葡萄 酒 是 否 因为 其 
化 学 性 质 与 现 有 样本 不 相 容 ， 被 视 为 内 点 《例如 现 有 品牌 的 变 体 ) 或 异常 值 。 第 一 步 包 括 
加 载 和 规范 化 数据 集 : 






























































































































































import numpy as np 


from sklearn.datasets import load wine 
from sklearn.preprocessing import StandardScaler 


wine = load wine() 
xX = wine['data'] .astype (np.float64) 


ss = StandardScaler () 
xX = ss.fit transform(X) 























我 们 现在 可 以 实例 化 一 个 IsolationForest 类 并 设置 最 重要 的 超 参数 。 第 一 个 是 n_estimators= 
150， 它 通知 模型 训练 150 棵 树 。 另 一 个 基本 参数 〈 类 似 于 单 类 SVM 中 的 v) 是 contamination， 
其 值 表示 训练 集中 异常 值 的 预期 百分比 。 当 我 们 信任 数据 集 时 , 我 们 选择 了 一 个 等 于 0.01 (1%) 
的 值 来 解决 存在 可 忽略 数 量 的 奇怪 样本 的 问题 。 出 于 兼容 性 原因 插入 了 参数 behaviour=mew 


(请 查看 官方 文档 以 获取 更 多 信息 )， 同 时 random_ state=1000 保证 了 实验 的 可 重复 性 。 一旦 
初始 化 了 类 ， 就 可 以 训练 模型 了 : 















































































































































from sklearn.ensemble import IsolationForest 


isf = IsolationForest(n estimators=150, behaviour='new', 
contamination=0.01, random state=1000) 
Y pred = isf.fit predict (Xx) 
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print('Outliers in the training set: {}'.format (np.sum(Y pred == -1))) 
代码 的 输出 是 : 
2 














因此 ， 和 孤立 森林 已 成 功 识别 178 个 内 点 中 的 176 个 。 我 们 接受 这 个 结果 ， 但 是 ， 像 往 
常 一 样 ， 我 建议 调整 参数 以 获得 与 每 种 特定 情况 都 兼容 的 模型 。 此 时 ， 我 们 可 以 生成 一 些 
虹 声 样本 : 











一 


import numpy as np 


Xtest 1 = np.mean(X) + np.random.normal (0.0, 1.0, size=(50, 13)) 





XxX test 2 = np.mean(X) + np.random.normal (0.0, 2.0, size=(50, 13)) 
XxX test = np.concatenate ([X test 1, XxX test 2], axis=0) 











测试 集 分 为 两 个 块 。 第 一 个 数组 X test 1 包含 具有 相对 低 噪 声 水 平 (o=1) 的 样本 ， 
而 第 二 个 数组 X test 2 包含 更 多 噪声 样本 〈c=2)。 因 此 ， 我 们 预计 第 一 个 数组 中 的 异常 值 
较 低 ， 而 第 二 个 数组 中 的 异常 值 较 大 。 数 组 X_test 是 两 个 测试 集 的 有 序 串 联 。 我 们 现在 预 
测 一 下 状态 。 由 于 这 些 值 是 双 极 性 的 ， 我 们 希望 将 它们 与 训练 结果 区 分 开 来 ， 因 此 将 把 预 
测 时 间 乘 以 2《〈 即 -1 表示 训练 集中 的 异常 值 ，1 表示 训练 集中 的 输入 值 ，-2 表示 测试 集中 
的 异常 值 ，2 表示 测试 集中 的 输入 值 ): 



































































































































Y test = isf.predict (xX test) * 2 


Xf = np.concatenate ([X, X test], axis=0) 
Yf = np.concatenate([Y pred, Y test], axis=0) 





Delinit (YE [el ) 





输出 如 下 : 
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随 着 顺序 的 保留 和 反 转 ， 我 们 可 以 看 到 属于 X _test 2 高 方差 ) 的 大 多 数 样本 被 归 类 
为 异常 ,而 大 多 数 低 方差 样本 被 识别 为 内 点 .为 了 进一步 进行 视觉 确认 , 我们 可 以 执行 上 SNE 
进行 降 维 ， 考 虑 最 终结 果 是 二 维 分 布 ， 其 与 原始 (13 维 ) 的 Kullback-Leibler 散 度 最 小 。 这 
意味 着 得 到 的 维度 的 可 解释 性 非常 低 ， 并 且 该 图 仅 可 用 于 理解 二 维 空间 的 哪些 区 域 更 可 能 
被 内 点 占据 : 
























































from sklearn.manifold import TSNE 





tsne = TSNE(n components=2, perplexity=5, n iter=5000, random state=1000) 
XxX tsne = tsne.fit transform (Xf) 























新 值 检测 结果 如 图 6-19 所 示 。 
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图 6-19 t-SNE 图 用 于 葡萄 酒 数据 集 的 新 值 检 测 
































我 们 可 以 看 到 ， 许 多 接近 训练 内 点 的 样本 本 身 就 是 内 点 。 一 般 来 说 ， 几 乎 所 有 远 端 测 
试 样本 都 是 异常 值 。 然 而 ， 由 于 剧烈 的 降 维 ， 很 难得 出 更 多 结论 。 然 而 ， 我 们 知道 当 噪声 
足够 小 时 ， 找 到 内 点 的 概率 很 大 《〈 这 是 一 个 合理 的 结果 )。 作 为 练习 ， 我 建议 大 家 检查 单个 
化 学 性 质 ， 对 于 每 种 化 学 性 质 或 对 于 组 ， 找 出 将 内 点 变换 为 异常 值 的 闷 值 例如 回答 这 个 
问题 ， 与 训练 集 相 容 的 最 大 酒精 量 是 多 少 )。 
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6.8 总 结 


UN 一口 














在 本 章 中 , 我 们 讨论 了 概率 密度 函数 的 性 质 以 及 如 何 将 其 用 于 计算 实际 概率 和 相对 
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似 然 。 我 们 已 经 知道 了 如 何 创建 直方 图 ,这 是 在 将 值 分 组 到 预定 义 的 条 柱 中 之 后 表示 值 
频率 的 最 简单 方法 。 由 于 直方 图 有 一 些 局 限 性 (它们 非常 不 连续 且 很 难 找到 最 佳 条 柱 的 
大 小 )， 我 们 引入 了 核 密度 估计 的 概念 ， 这 是 一 种 使 用 平滑 函数 估算 密度 的 稍微 复杂 的 
方法 。 

我 们 已 经 分 析 了 最 常见 内 核 (高 斯 、Epanechnikov、 指 数 和 均匀 〉 的 特性， 以 及 两 种 
可 用 于 找 出 每 个 数据 集 的 最 佳 带宽 的 经 验方 法 。 使 用 这 种 技术 ， 我 们 尝试 基于 合成 数据 集 
解决 一 个 非常 简单 的 单 变量 问题 。 我 们 分 析 了 KDD Cup 99 数据 集 的 HITP 子 集 ， 其 中 包 
含 几 个 正常 和 恶意 网 络 连接 的 日 志 记 录 。 并 且 我 们 使 用 KDE 技术 创建 了 一 个 基于 两 个 阔 值 
的 简单 异常 检测 系统 ， 并 解释 了 在 处 理 这 些 问题 时 必须 考虑 哪些 因素 。 
在 最 后 一 部 分 中 ， 我 们 分 析 了 可 用 于 执行 新 值 检测 的 两 种 常用 方法 。 单 类 SVM 利用 
内 核 的 强大 功能 将 复杂 数据 集 投影 到 可 以 线性 分 离 的 特征 空间 。 下 一 步 基 于 这 样 的 假设 : 
所 有 训练 集 (除了 一 小 部 分 ) 都 是 内 点 ， 因 此 它们 属于 同一 类 。 训 练 该 模型 的 目的 是 最 大 
化 内 点 与 特征 空间 的 原点 之 间 的 分 离 ， 并 且 结 果 基 于 样本 相对 于 分 离 超 平面 的 位 置 。 相反 ， 
孤立 森 林 是 一 种 集合 模型 ， 它 基于 这 样 的 假设 ， 在 随机 训练 的 决策 树 中 从 根 到 样本 的 路 径 
对 于 异常 值 来 说 平均 较 短 。 

因此 ， 在 训练 森林 之 后 ， 我 们 可 以 考虑 给 定 新 样本 的 平均 路 径 长 度 来 计算 异常 分 数 。 
当 这 样 的 分 数 接近 1 时 ， 我 们 可 以 得 出 异常 的 概率 也 非常 大 的 结论 。 相 反 ， 非 常 小 的 分 数 
值 表 明 新 值 是 潜在 的 内 点 。 
在 第 7 章 中 ， 我 们 将 讨论 最 常见 的 降 维 和 字典 学 习 技 术 ， 这 些 技术 在 需要 管理 具有 大 
量 特征 的 数据 集 时 非常 有 用 。 














































































































































































































































































































































































































6.9 ”问题 











1. 一 个 人 身高 1.70 米 的 概率 是 p(Z211 = 0.75, 而 明天 下 雨 的 概率 是 P(Rain) = 0.2。P(Tall, 
Rain) 的 概率 是 多 少 ? (也 就 是 说 ， 一 个 人 身高 1.70 米 且 明天 下 雨 的 概率 。) 

2. 给 定数 据 集 刀 我 们 构建 一 个 包含 1000 个 条 柱 的 直方 图 ， 并 且 发 现 它们 中 的 许多 
都 是 空 的 。 为 什么 会 这 样 ? 

3. 直方 图 包含 3 个 条 柱 ， 分 别 包含 20、30 和 25 个 样本 。 第 一 个 的 范围 为 0<x< 2， 
第 二 个 的 范围 为 2<x<4， 第 三 个 的 范围 为 4<x<6。P(x) > 2 的 概率 是 多 少 ? 

4. 给 定 正 态 分 布 N(0, 1)，p(x) = 0.35 的 样本 x 是 否 可 以 被 视 为 异常 ? 
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5. 具有 500 个 样本 的 数据 集 和 有 st4(2) = 2.5 和 71ORCO = 3.0。 其 最 佳 带宽 是 多 少 ? 

6. 一 位 专家 告诉 我 们 ， 分布 在 两 个 值 附 近 都 达到 了 峰值 ， 密 度 突然 从 峰值 均值 下 降 了 
0.2 个 标准 差 。 选 择 哪 种 内 核 最 合适 ? 

7. 给 定 样本 x 从 10000 个 样本 流 人 口中 收集 )， 我 们 不 确定 它 是 异常 值 还 是 新 值 ， 
为 p(x) = 0.0005。 在 另外 10000 次 观察 之 后 ， 我 们 重新 训练 模型 并 且 x 保持 p(x) < 0.001。 
我 们 可 以 得 出 x 是 一 个 异常 的 结论 吗 ? 
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在 本 章 中 ， 我 们 





























将 介绍 和 讨论 可 用 于 执行 降 维 和 分 量 提取 的 一 些 非 














维 的 目标 是 将 高 维 数据 集 转 换 为 低 维 数据 集 ， 以 尽量 减少 信息 丢失 。 分 


可 以 混合 的 原子 字典 以 构建 样本 所 需 的 过 程 。 






































本 章 将 着 重 讨论 以 下 主题 。 


7.1 


主 成 分 分 析 (Principal Component Analysis,，PCA)。 
奇异 值 分 解 (Singular Value Decomposition，SVD ) 和 白化 。 
基于 内 核 的 主 成 分 分 析 。 

稀 疏 主 成 分 分 析 与 字典 学 习 。 

因子 分 析 。 

独立 成 分 分 析 (Independent Component Analysis，ICA ) 。 




















非 负 和 矩阵 分 解 (Non-Negative Matrix Factorization，NNMEF ) 。 


潜在 Dirichlet 分 配 (Latent Dirichlet Allocation，LDA )。 


技术 要 求 


本 章 中 的 代码 需求 如 下 。 


Python 3.5+ (强烈 推荐 Anaconda 发 行 版 )。 
库 。 
m SciPy 0.19+。 
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要 的 技术 。 降 











量 提取 是 一 种 找到 
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@ NumPy 1.10+。 


m scikit-learn 0.20+。 


m pandas 0.22+。 


m Matplotlib 2.0+。 


m Seaborn 0.9+。 


示例 代码 可 以 从 本 书 配套 的 代码 包 中 获取 。 


7.2 主 成 分 分 析 











降低 数据 集 维度 的 常 





























用 方法 之 一 是 基于 样本 协 方差 矩阵 的 分 析 。 通 常 ， 我 们 知道 随机 



































变量 的 信息 内 容 与 其 方差 成 正比 。 例 如 给 定 多 元 高 斯 ， 烂 用 来 测量 信息 的 数学 表达 式 ， 如 





下 所 示 : 





H= Flog(det(2ne 2)) 





在 前 面 的 公式 中 , 是 协 方差 算 阵 。 如 果 我 们 假设 三 是 对 角 的 (不 损失 一 般 性 )， 则 很 
容易 理解 烂 大 于 (成 比例 地 ) 每 个 单个 分 量 的 方差 o?。 这 并 不 奇怪 ， 因 为 具有 低 方差 的 随 



































机 变量 集中 在 均值 附近 ， 








在 的 结果 随 着 不 确定 性 的 增加 而 增加 ， 这 与 信息 量 成 正比 。 





并 且 发 生意 外 的 概率 很 低 。 另 一 方面 ， 当 o 变 得 越 来 越 大 时 ， 洪 
































当然 ， 分 量 的 影响 通常 是 不 同 的 。 因 此 ， 主 成 分 分 析 的 目标 是 找到 可 以 将 它们 投影 到 





较 低 维 子 空间 的 样本 的 线性 变换 ， 从 而 保留 最 大 数量 的 初始 方差 。 在 实践 中 ， 让 我 们 考虑 





一 个 数据 集 XE%”"; 








我 们 想 要 找到 的 线性 























针 = 全, 古 ,…, 圳 ,), 其 中 大 RR” 


FE 变换 是 一 个 新 的 数据 集 ， 如 下 所 示 : 
Z= {zDD | 中 三 = A 






































应 用 此 类 变换 后 ， 我 们 希望 具有 以 下 内 容 : 





dim(z) < (<)dim(x vi 
H(z) ~ H(x) 














证 我 们 开始 考虑 样本 协 方差 矩阵 〈 为 了 我 们 的 目的 ,我们 也 可 以 使 用 偏差 估计 )。 为 简 
单 起 见 ， 我 们 还 假设 的 均值 为 零 : 
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2, -1 yry eR™ 
m 





这 样 的 矩阵 是 对 称 和 半 正 定 的 〈 如 果 你 不 熟悉 这 些 概念 也 没关系 ， 但 它们 对 于 证 明 以 
下 步骤 非常 重要 )， 因 此 它 的 特征 向 量 构成 了 正 交 标准 。 快 速 回顾 一 下 ， 如 果 4 是 方 阵 并 满 
足以 下 条 件 ， 则 向 量 vj 称 为 与 特征 值 4 相关 的 特征 向 量 : 
Ax; = 1 


换 句 话说 ,特征 向 量 被 转换 为 其 自身 的 扩展 或 缩小 版 本 (不 发 生 旋 转 )。 要 证 明 协 方差 
和 矩阵 的 特征 向 量 定 义 了 协 方差 分 量 的 方向 〈( 即 数据 集 具 有 特定 协 方差 分 量 的 方向 ) 并 不 困 
难 〈 但 将 忽略 所 有 的 数学 细节 )。 原 因 很 简单 ， 事 实 上 ， 在 变换 之 后 ， 新 的 协 方差 矩阵 〈 转 
化 后 的 数据 集 Z) 是 不 相关 的 《也 就 是 说 ， 它 是 对 角 的 )， 因 为 新 轴 与 协 方差 分 量 对 齐 。 这 
意味 着 一 个 versor， 例 如 wm = (1 0, 0, …, 0) 被 转换 为 ojv;， 因 此 它 是 一 个 特征 向 量 ， 其 相关 
的 特征 值 与 第 i 个 分 量 的 方差 成 正比 。 

因此 ,为 了 找 出 哪些 元 素 可 以 丢弃 ,我 们 可 以 对 特征 值 进行 排序 ， 以 便 满足 以 下 条 件 : 


义气 力 所 


相应 的 特征 向 量 (yi, v2,…, va) 分 别 确定 对 应 于 最 大 方差 的 分 量 ， 依 此 类 推 ， 直 到 最 
后 一 个 。 在 形式 上 ， 我 们 将 这 些 特 征 向 量 定义 为 主 成 分 。 因 此 ， 第 一 主 成 分 是 与 最 大 方差 
相关 联 的 方向 ， 第 二 主 成 分 与 第 一 主 成 分 正 交 ， 并 且 它 与 第 二 大 方差 相关 联 ， 依 此 类 推 
对 于 二 维 数据 集 ， 此 概念 如 图 7-1 所 示 。 
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图 7-1 二 维 数据 集 的 主 成 分 ， 第 一 个 主 成 分 沿 着 方差 最 大 的 轴 ， 
而 第 二 个 主 成 分 正 交 ， 并 且 与 剩余 方差 成 比例 
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此 时 ， 问 题 几乎 解决 了 。 事 实 上 ， 如 果 我 们 只 选择 前 大 个 主 成 分 (veE 轩 "*')， 就 可 以 
建立 一 个 变换 矩阵 44e 完 "**， 从 而 将 与 前 个 特征 值 相关 的 特征 向 量 作 为 行 : 


TO) TD 
Vv ee Vr 














4=| : : 

VD 

因此 ， 我 们 可 以 使 用 以 下 和 矩阵 乘法 转换 整个 数据 集 : 
Z =X4 where Z eR™ 


新 数据 集 Z 的 维 数 大 小 于 《或 远 小 于 ) n， 它 包含 与 分 量 数 成 正比 的 原始 方差 量 。 例 如 
考虑 图 7-1 中 所 展示 的 示例 ， 如 果 我 们 选择 单个 分 量 ， 那 么 所 有 向 量 都 将 沿 着 第 一 个 主 分 
量 转换 为 点 。 当 然 ， 会 有 一 些 信息 需要 我 们 逐个 考虑 。 在 以 下 各 节 中 ， 我 们 将 讨论 如 何 评 
估 此 类 损失 并 做 出 合理 的 决策 。 现 在 ， 我 们 将 简要 介绍 如 何以 有 效 的 方式 提取 主 成 分 。 


7.2.1 具有 奇异 值 分 解 的 PCA 


尽管 我 们 将 采用 完整 的 PCA 实现 方法 ,但 了 解 如 何 有 效 地 执行 此 类 过 程 将 会 很 有 帮助 。 
当然 ， 最 明显 的 方法 是 基于 样本 协 方差 矩阵 的 计算 ， 其 特征 分 解 〈 将 输出 特征 值 和 相应 的 特 
征 向 量 ) 最 后 可 以 构建 变换 矩阵 。 这 种 方法 很 简单 ， 但 不 幸 的 是 ， 它 的 效率 很 低 。 主 要 原因 
是 我 们 需要 计算 样本 协 方差 矩阵 ， 这 对 于 大 型 数据 集 来 说 可 能 是 一 项 很 耗 时 的 任务 。 

奇异 值 分 解 提供 了 一 种 更 为 高 效 的 方法 ， 它 是 一 个 具有 一 些 重 要 特征 的 线性 代数 过 
程 : 它 可 以 直接 在 数据 集 上 运行 ， 可 以 在 提取 所 需 数量 的 分 量 时 停止 并且 有 可 以 与 小 
批量 一 起 使 用 的 增 量 版 本 ,克服 了 内 存 不 足 的 问题 。 考 虑 到 数据 集 XE 园 ”“，SVD 可 以 
表示 为 : 



































































































































































































































































































































X=UAV" whereU eR™™,A=diag(n xn),V eR”™ 


过 是 一 个 单位 矩阵 ( 即 UU7 = VIU=7 因此 UV = U7"), 包含 左 侧 奇异 向 量 作 为 行 (XX 
的 特征 向 量 );， 玉 (也 是 单一 的 ) 包含 右 侧 奇异 向 量 作 为 行 ( 对 应 于 YX 的 特征 向 量 ), 而 4 
是 包含 m5 奇异 值 的 对 角 和 矩阵 (它们 是 XX' 和 XY 的 特征 值 的 平方 根 )。 特 征 值 按 降序 排 
序 ， 并 且 重 新 排列 特征 向 量 以 匹配 相应 的 位 置 。 由 于 1/m 因子 是 乘法 常数 ， 它 不 会 影响 特 
征 值 的 相对 大 小 ， 因 此 ， 排 列 顺序 保持 不 变 。 因 此 ， 我 们 可 以 直接 使 用 VV 或 U， 并 从 4 中 
选择 前 个 特征 值 。 特 别 地 ， 我 们 可 以 观察 到 以 下 结果 (因为 变换 矩阵 4 等 于 由: 

Z=X4=UAV'A4=UAVV=UA 
因此 ， 通 过 使 用 截断 版 的 Ui〈 仪 包含 前 个 特征 向 量 ) 和 A 〈 仅 包含 前 个 特征 
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我 们 可 以 直接 获得 低 维 变换 数据 集 〈 具 有 大 个 分 量 )， 如 下 所 示 : 
Z, =U,A, 
这 种 方法 快速 、 有 效 ， 并 且 在 数据 集 太 大 而 无 法 放 入 内 存 时 可 以 方便 地 进行 缩放 。 尽 
管 我 们 在 本 书 中 没有 使 用 这 样 的 场景 ， 但 关于 scikit-learn 的 TruncatedSVD 类 (执行 限于 
最 大 特征 值 的 SVD) 和 IncrementalPCA 类 在 小 批量 上 执行 PCA)〉 对 我 们 是 有 帮助 的 。 
于 我 们 的 目的 ， 将 使 用 标准 PCA 类 和 一 些 重 要 变 体 ， 这 些 变 体 要 求 整 个 数据 集 适 应 内 存 。 
化 
SVD 的 一 个 重要 应 用 是 白化 过 程 ， 它 强制 均值 为 null 的 数据 集 卫 ( 即 E[ 旭 =0 或 以 0 
为 中 心 ) 具有 一 个 单位 协 方差 矩阵 C (真实 且 对 称 )。 这 种 方法 对 提高 许多 监督 算法 的 性 能 
非常 有 用 ， 这 可 以 受益 于 所 有 分 量 共 享 的 统一 单一 方差 。 
将 分 解 应 用 于 C， 我 们 得 到 以 下 结果 : 
C=ELX'X]=WVAV"=1 
矩阵 天 的 列 是 C 的 特征 向 量 ， 而 4 是 包含 特征 值 的 对 角 和 矩阵 (请 记 住 ，SVD 输出 的 
奇异 值 是 特征 向 量 的 平方 根 )。 因 此 ， 我 们 需要 找到 一 个 线性 变换 ，z = 4x， 使 FLZIZ] = 卫 。 
在 使 用 前 面 的 分 解 时 ， 这 非常 简单 : 


C= E[Z'Z]=E[AXY XA4]= AE[X ' X]A = AVAV "A =1 


从 前 面 的 等 式 ， 我 们 可 以 得 出 变换 矩阵 4 的 表达 式 : 


1 


AA' =VAYV = A=VA? 
现在 ， 我 们 将 使 用 一 个 小 的 测试 数据 集 展示 白化 的 效果 ， 如 下 所 示 : 
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import numpy as np 


from sklearn.datasets import make blobs 


X, _ = make blobs(n samples=300, centers=1, cluster std=2.5, 
random state=1000) 





Print(nps Cow(X TL).) 








代码 块 的 输出 显示 了 数据 集 的 协 方差 矩阵 ， 如 下 所 示 : 








[[6.37258226 0.40799363 
[0.40799363 6.32083501 





] 
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中 (正确 的 参数 会 在 白化 后 强制 比例 校正 ): 











import numpy as np 


def zero center (X) : 
return X - np.mean(X, axis=0) 


def whiten(X, correct=True): 
XC = Zero center (XI) 
,LL,V= np.linalg.svdl(xc) 
W = np.dot(V.T, np.diag(1.0 / L)) 
return np.dot (Xc, W) * np.sqrt(X.shape[0]) if correct else 1.0 





应 用 于 数据 集 凶 的 白化 结果 如 图 7-2 所 示 。 


Original dataset Whitened dataset 
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图 7-2 原始 数据 集 ( 左 ) 和 白化 后 的 数据 入 
我 们 现在 可 以 检查 新 的 协 方差 矩阵 ， 如 下 所 示 : 





7 
wg 
计 
et 

















import numpy as np 


Xw = whiten (X) 
print (np.cov (Xw.T)) 


输出 如 下 : 


[[1.00334448e+00 1.78229783e-17] 
[1.78229783e-17 1.00334448e+00]] 
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用 于 对 通用 数据 集 执行 白化 的 函数 whiten0《〈 归 零 是 过 程 的 一 部 分 ) 显示 在 以 下 代码 


























可 以 看 出 ， 和 矩阵 现在 是 一 个 恒等式 (具有 最 小 误差 )， 六 


7.2.2 具有 MNIST 数据 集 的 PCA 




















现在 让 我 们 应 用 PCA 来 减少 MNIST 数据 及 
缩 版 本 (1797 张 ，8 像素 x8 像素 图 像 )， 但 我 们 的 考虑 不 会 受到 出 





加 载 和 规范 化 数据 集 开始 : 





from sklearn.datasets import load digits 


digits = load digits() 


xX = digits['data'] / np.max (digits['data']) 

















7.2 主 成 分 分 析 181 























的 维 数 。 我 们 将 使 用 scikit-learn 提供 的 压 
选择 的 影响 。 让 我 们 从 





具有 空 均值 。 








通过 理论 讨论 ， 我 们 知道 协 方差 矩阵 特征 值 的 大 小 与 相应 主 成 分 的 相对 重要 性 (也 就 




















是 解释 的 差异 ， 因 此 提供 的 信息 内 容 ) 成 正比 。 因 

















计算 以 下 差异 : 








邦 一 和 太一 和 太一 和 
当 分 量 数 上 一 n 时 重要 性 将 降低 ， 我 们 可 以 通过 选择 第 一 个 最 大 差异 来 选择 最 佳 
这 表明 以 下 所 有 分 量 的 解释 方差 量 显著 下 降 。 为 了 更 好 地 到 
征 值 及 其 差异 〈 因 为 协 方差 矩阵 C 是 半 正 定 的 ， 我 人 















































import numpy as np 


= np.cov (xX.T) 
， V= np.linalg.eig(C) 
np SSEt() :=| 


l@ 
1 
站 
Q 1[:1.shape[0]-1] - 1[1:] 





展 平 图 像 〈64 维 数组 ) 每 个 主 成 分 的 特 和 
我 们 可 以 看 出 ， 主 成 分 的 差异 非常 大 ， 并 





































































































此 ， 如 果 它 们 按 降序 排列 ， 则 我 们 可 以 





a 














出 ， 我 们 需要 计算 特 
上 定 4 之 0ViE(1,n)): 





四 主 成 分 (44 -如 ) 达到 最 大 值 。 





然而 ， 下 一 个 差异 仍然 非常 大 ， 而 对 应 于 46 突然 下 降 。 此 时 ， 趋 势 几乎 是 稳定 的 《除了 一 








些 残 余 振荡 )， 直 到 X11。 然 后 它 开始 非常 迅速 地 减 小 ， 趋 于 零 。 由 于 我 们 仍然 想 要 得 到 正 



















































































方形 
其 他 值 ， 例 如 =15， 甚 至 k= 8。 但 是 ， 为 了 更 好 地 到 
差 也 是 有 帮助 的 。 因 此 ， 让 我 们 从 执行 PCA 开始 : 


from sklearn.decomposition import PCA 
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图 像 ， 因 此 我 们 将 选择 上 = 16 (相当 于 将 每 一 边 除 以 4)。 在 别 的 任务 中 ， 你 可 以 选择 
E 解 降 维 所 引起 的 误差 ， 分 析 解 释 方 
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Eigenvalue difference 
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ratio 的 所 
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pca = PCA(n components=16, random state=1000) 
digits pca = pca.fit transform (XxX) 


W116171819D224223 相 5 和 0 入 和 本 入 4 和 7 要 要 051 开 到 5 和 可 8 罗 


Co 


图 7-3 每 个 主 成 分 的 特征 值 差异 








对 模型 进行 拟 合 ， 并 将 所 有 样本 投影 到 对 应 于 前 16 个 主 成 分 的 子 空 


























间 之 后 ， 我 们 


所 得 数组 digits_pca。 如 果 我 们 想 要 将 原始 图 像 与 它们 的 重建 进行 比较 ， 我 们 需要 调 
































图 7-4 原始 样本 (上 ) 和 重建 (下 ) 
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下 建 之 
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上 
里 





方法 inverse_transform() 对 原始 空间 进行 投影 ,因此 , 如果 PCA 在 这 种 情况 下 是 变换 fx): 
4 一 名， 则 逆 变 换 是 g(z): 轩 一 轩 “。 前 10 个 数字 的 原始 样本 与 其 习 
图 7-4 所 示 。 


国电 因 同 四 风 四 同 阿 加 
[EE I Ee A El 


司 的 比较 如 






重建 显然 是 有 损 的 , 但 数字 仍然 是 可 区 分 的 。 现 在 , 让 我 们 通过 对 数组 explained variance 
9 值 求 和 来 检查 总 解释 方差 ， 该 数组 包含 每 个 分 量 的 解释 方差 的 相对 晶 


(以 便 任 


7.2 主 成 分 分 析 183 


何 大 < 个 分 量 的 总 和 始终 小 于 1): 
print (np.sum(pca.explainedq variance ratio ) ) 


代码 段 的 输出 如 下 : 


0.8493974642542452 


因此 , 在 维 数 减少 到 16 个 分 量 的 情况 下 , 我 们 解释 了 大 约 85% 的 原始 方差 。 这 是 一 个 





合理 的 值 ， 因 为 我 们 为 每 个 样本 丢弃 了 48 个 分 量 。 
对 应 于 每 个 主要 成 分 的 解释 方差 比如 图 7-5 所 示 。 


1 2 3 4 5 6 了 8 9 10 11 人 2 13 


14 15 16 


Explained variance ratio 
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00 


Components 





7-5 对 应 于 每 个 主 成 分 的 解释 方差 比 


正如 预期 的 那样 ， 解 释 方差 比 趋 于 减少 。 因 为 在 这 种 情况 下 ， 第 一 主 成 分 是 主要 的 ， 例 如 
对 于 一 种 颜色 (例如 黑色 或 白色 ) 的 线条 ， 而 其 余 的 则 是 灰 度 。 这 种 行为 非常 普遍 ， 几 乎 在 所 有 
情况 下 都 可 以 观察 到 。 通 过 这 个 图 表 , 我 们 还 可 以 轻松 找到 额外 的 损失 ,并 可 以 进一步 减少 这 种 
损失 。 例 如 我 们 可 以 发 现 , 对 3 个 成 分 的 严格 限制 将 解释 约 40% 的 原始 方差 ， 因此 , 剩余 的 45% 








被 拆 分 为 其 余 13 个 成 分 。 我 建议 你 重复 此 示例 ， 尝 试 找到 区 分 所 有 数字 所 需 的 最 小 分 
7.2.3 ”基于 内 核 的 主 成 分 分 析 


- 恒 . 
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县 o 





有 时 ,数据 集 不 能 进行 线性 分 离 ， 并 且 标 准 PCA 无 法 提取 正确 的 主 成 分 。 当 我 们 面 对 
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非 凸 聚 类 的 问题 时 ， 该 过 程 与 第 3 章 中 讨论 的 过 程 并 无 不 同 ， 在 这 种 情况 下 ， 由 于 几何 形 
状 ， 一些 算法 无 法 成 功 执行 分 离 。 在 这 种 情况 下 ， 我 们 的 目标 是 根据 主 成 分 的 结构 区 分 不 
同 的 类 (在 纯粹 的 、 无 监督 的 场景 中 ,我 们 考虑 特定 的 分 组 )。 因 此 ， 我 们 希望 使 用 转换 后 
的 数据 集 Z， 并 检测 是 否 存在 可 区 分 的 阔 值 ， 如 图 7-6 所 示 。 


Original dataset PCA projected dataset 
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图 7-6 原始 数据 集 ( 左 ) 和 PCA 投影 版 本 ( 右 ) 











由 于 原始 数据 集 是 线性 可 分 离 的 ， 因此 在 PCA 投影 之 后 , 我 们 可 以 立即 找到 允许 检测 
的 第 一 个 分 量 ( 这 是 唯一 真正 需要 的 分 量 〉 的 闵 值 ， 以 便 区 分 这 两 块 样本 。 但 是 ， 如 果 原 
始 数据 集 不 是 线性 可 分 离 的 ， 我 们 会 得 到 一 个 不 可 接受 的 结果 ， 如 图 7-7 所 示 。 














Original dataset PCA projected dataset 
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图 7-7 原始 数据 集 ( 左 ) 和 PCA 投影 版 本 〈 右 ) 


当 几 何 体 更 复杂 时 ， 找 到 可 区 分 的 阔 值 是 不 可 能 的 。 但 是 ， 我 们 知道 将 数据 投影 到 更 
高 维 空间 可 以 使 它们 线性 分 离 。 特 别 地 ， 如 果 xE 因 "， 我 们 可 以 选择 一 个 合适 的 函数 ,/o)， 
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使 得 y = fx)s 完 ?， 其 中 p 污 n。 不 幸 的 是 ， 将 此 转换 应 用 于 整个 数据 集 可 能 非常 昂贵 。 事 
实 上 ， 给 定 一 个 转换 矩阵 4 (及 n 个 分 量 )， 单 个 分 量 au 在 投影 之 后 ， 可 以 写成 如 下 公式 
《 记 住 它 们 是 协 方差 矩阵 的 特征 向 量 ): 


WO = 2 Ba" = fm) 
i : 

































































因此 ， 单 个 向 量 的 转换 如 下 : 





zp [Zeve GD) 












































我 们 可 以 看 出 ,转换 需要 计算 点 积 fQe) foc)。 在 这 些 情况 下 ， 我 们 可 以 使 用 所 请 的 内 核 技巧 
(Kernel Trick)， 它 表明 存在 称 为 内 核 的 特定 函数 K(。:，*)， 具 有 一 个 有 趣 的 属性 ， 如 下 所 示 : 
K(X,x,) = f(x%) f(x,) 
换 名 话说， 我 们 可 以 通过 简单 地 计算 每 对 点 的 内 核 来 计算 高 维 空间 中 主 成 分 的 投影 ， 
而 不 是 执行 点 积 ， 这 需要 在 计算 及 *) 之 后 进行 n 次 乘法 。 
一 些 和 常见 的 内 核 如 下 所 示 。 
。 径 向 基 函 数 或 高 斯 内 核 : 
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天 (元 ,7)=e ~” ore 


。 次 数 为 p 的 多 项 式 内 核 : K(x,x,))=(a+ bx x,)? 
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A 


e’(a+bx, «Xx,)—!1 
。 sigmoid 内 核 : K(X,X,)= 7 
. Ss el(a+tbx, »T,)+1 


















































对 于 非常 大 的 数据 集 ， 该 过 程 仍然 相当 昂贵 (但 是 可 以 预先 计算 和 存储 内 核 值 ， 以 避 
免 浪 费 额外 的 时 间 ), 但 它 比 标准 投影 更 有 效 。 此 外 ， 它 的 优点 是 允许 在 可 能 进行 线性 分 离 
的 空间 中 提取 主 成 分 。 现 在 ， 让 我 们 将 基于 RBF 内 核 的 PCA 应 用 于 图 7-7 中 显示 的 半月 
数据 集 。 参 数 gamma 等 于 1/o>。 在 这 种 特殊 情况 下 ， 应 用 的 主要 问题 是 存在 双重 重 疮 。 
考虑 到 原始 标准 差 约 为 1.0 (也 就 是 of = 1)， 我 们 至 少 需要 3 个 标准 差 才 能 正确 区 分 它们 。 
因此 ， 我 们 将 设置 y = 10: 
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from sklearn.datasets import make _ moons 
from sklearn.decomposition import KernelPCA 


X, Y = make moons (n samples=800, noise=0.05, random state=1000) 
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kpca = KernelPCA(n components=2, kernel='rbf', gamma=10.0,random state=1000) 
X pca = kpca.fit transform (XxX) 


原始 数据 集 和 投影 版 本 如 图 7-8 所 示 。 
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原始 数据 集 ( 左 ) 和 了 RBF 内 核 PCA 投影 版 本 ( 右 ) 





00 
First component 


RBF Kernel PCA projected dataset 


02 04 


我 们 可 以 看 出 ， 即 使 在 这 种 情况 下 ， 第 一 个 分 量 也 是 以 做 出 决定 (由 于 噪声 、 公 差 最 
小 ), 将 闵 值 设置 为 0 并 允许 分 离 数 据 集 。 我 建议 读者 测试 其 他 内 核 的 效果 并 应 用 它们 ， 以 









































便 区 分 全 是 0 和 全 是 1 的 MNIST 子 集 。 


7.2.4 通过 因 了 于 分 析 增 加 异 方差 噪声 的 强壮 性 


标准 PCA 的 主要 问题 之 一 是 这 种 模型 在 异 方差 噪声 方面 的 内 在 弱点 。 如 果 你 不 熟悉 这 
个 术语 ， 那 么 引入 下 面 这 两 个 定义 会 很 有 帮助 。 多 变量 去 相关 噪声 项 的 特征 在 于 对 角 协 方 
差 和 矩阵 C， 它 可 具有 两 种 不 同 的 配置 ， 如 下 所 示 。 














e C= diag(o”, 性 


同 的 方差 )。 


e C= diag(o1’, ao 三 
































我 们 可 以 证 明 ， 当 噪声 是 等 方差 时 ，PCA 可 以 轻松 地 对 其 进行 管理 ， 














, 0 ); 在 这 种 情况 下 ， 噪 声 被 定义 为 等 方差 的 (所 有 分 量具 有 相 





Fas 


0x )， 并 且 of? 关 oy 关 … 短 ow: 在 这 种 情况 下 ， 噪 声 被 定义 为 异 
方差 的 (每 个 分 量 都 有 自己 的 方差 )。 














~ 





因为 单个 分 量 的 





解释 方差 以 相同 的 方式 受到 噪声 项 的 影响 〈 也 就 是 说 ， 这 相当 于 没有 噪声 )。 相 反 ， 当 噪声 
是 异 方差 时 ，PCA 的 性 能 下 降 ， 结 果 可 能 是 绝对 不 可 接受 的 。 出 于 这 个 原因 ，RubinD. 和 
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Thayer D. (在 EM algorithms for ML factor analysis 中 ) 提出 了 一 种 替代 降 维 方法 ， 称 为 因 
子 分 析 ， 可 以 解决 这 类 问题 。 

假设 我 们 有 一 个 零 中 心 数 据 集 了 ,包含 m 个 样本 x;E 完 "。 我 们 的 目标 是 找到 一 组 潜在 变 
量 ,，z;E 加 ?(p <n) 和 和 矩阵 4 ( 称 为 因子 加 载 算 阵 )， 以 便 可 以 重 写 每 个 样本 ， 如 下 所 示 : 


























T=Az+NAwherez ~ N(0,1)and A~N(0,C,) withC,=diag(o? ,07,*, O07) 


因此 , 我们 现在 假设 样本 x; 是 一 组 高 斯 潜在 变量 加 上 一 个 额外 的 异 方差 曲 声 项 的 组 合 。 
由 于 潜在 变量 具有 较 低 的 维度 ， 因 此 问题 与 标准 PCA 非常 相似 , 主要 区 别 在 于 现在 我 们 考 
上 不了 异 方差 噪声 (当然, n 也 可 以 为 null 或 同方 差 );。 因 此 ， 当 确定 分 量 ( 即 潜在 变量 ) 时 
模型 中 包含 了 不 同 噪声 方差 的 影响 ， 最 终 产生 了 部 分 滤波 〈 降 噪 ) 的 效果 。 在 上 述 提 到 的 
论文 中 ， 作 者 提出 了 一 种 优化 算法 ， 该 算法 不 是 非常 复杂 ， 但 需要 许多 数学 证 明 〈 因 此 ， 
我 们 省 略 了 证 明 过 程 )。 该 方法 基于 期 望 最 大 化 〈Expectation Maximization，EM) 算法 ， 
该 算法 有 助 于 找到 最 大 化 对 数 似 然 的 参数 集 。 在 本 书 中 ， 我 们 不 讨论 所 有 的 数学 细节 〈 可 
以 在 原始 论文 中 去 查找 )， 而 是 检查 这 种 方法 的 属性 ， 并 将 结果 与 标准 PCA 进行 比较 。 


让 我 们 首先 加 载 Olivetti 面部 数据 集 , 将 其 置 0, 然后 创建 异 方差 噪声 版 本 , 如 下 所 示 : 








































































































import numpy as np 

from sklearn.datasets import fetch olivetti faces 

faces = fetch olivetti faces (shuffle=True, random state=1000) 
X= faces['data'] 

Xz = X - np.mean(X, axis=0) 

C= np.diag(np.random.uniform(0.0, 0.1, size=Xxz.shape[1])) 


Xnz = Xz + np.random.multivariate normal (np.zeros (Shape=Xz.shape[1])，C， 
size=Xz.shape[0]) 


一 些 原始 图 像 和 噪声 图 像 如 图 7-9 所 示 。 


加 国 国 国 涟 这 国 加 区 
| 


图 7-9 原始 图 像 (上 ) 和 噪声 图 像 (下 ) 
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现在 ,让 我 们 评估 以 下 方法 的 平均 对 数 似 然 ( 通 过 方法 score0， 可 在 PCA 和 FactorAnalysis 











类 中 获得 )。 
。 包含 原始 数据 集 和 128 个 分 量 的 PCA。 
。 包含 噪声 数据 集 和 128 个 分 量 的 PCA。 
。 包含 噪声 数据 集 和 128 个 分 量 〈 潜 在 变量 ) 的 因子 分 析 。 
在 下 面 的 代码 段 中 ，3 个 模型 都 被 实例 化 以 及 训练 : 




















from sklearn.decomposition import PCA, FactorAnalysis 


bca = PCA(n components=128, random state=1000) 
Deaifit(xz) 
print('PCA log-likelihnood(Xz): {}'.format (pca.score (Xz))) 


bcan = PCA(n components=128, random state=1000) 
pcan.fit (XxXxnz) 





print ('PCA log-likelihood (Xnz): {}'.format (pcan.score (Xnz))) 
fa = FactorAnalysis(n components=128, random state=1000) 
fa.fit (xnz) 


print('Factor Analysis log-likelihnood (Xnz): 
{}"'.format (fa.score (Xnz))) 


代码 段 的 输出 如 下 : 





PCA log-likelihood(Xz): 4657.3828125 
PCA log-likelihood(Xnz): -2426.302304948351 
Factor Analysis log-likelihood(Xnz): 1459.2912218162423 











这 些 结果 表明 了 在 异 方差 噪声 的 情况 下 因子 分 析 的 有 效 性 。 PCA 实现 的 最 大 平均 对 数 似 
然 约 为 4657, 在 存在 噪声 的 情况 下 大 约 降 至 -2426。 相 反 ， 因 子 分 析 实 现 了 大 约 1459 的 平均 
对 数 似 然 , 这 远大 于 使 用 PCA 获得 的 平均 对 数 似 然 〈 即 使 噪声 的 影响 尚未 完全 滤 除 )。 因 此 ， 
每 当 数 据 集 包含 〈 或 数据 科学 家 怀疑 它 包 含 ) 异 方差 噪声 〈 例 如 样本 是 作为 不 同 仪器 捕获 的 



























































源 全 加 而 获得 ) 时 ， 我 强烈 建议 将 因子 分 析 作 为 主要 的 降 维 方法 。 当 然 ， 如 果 要 求 其 他 条 件 
《例如 非 线性 、 稀 琉 性 等 )， 则 可 以 在 做 出 最 终 决 定之 前 评估 本 章 中 讨论 的 其 他 方法 。 

















7.2.5 稀 蚊 主 成 分 分 析 与 字典 学 习 






































标准 PCA 通常 是 一 种 密集 的 分 解 。 也 就 是 说 ， 向 量 一 旦 被 变换 ， 就 会 成 为 所 有 有 具有 非 
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i 当 





a 


























零 系数 分 量 的 线性 组 合 : 








工 
z=V 





在 前 面 的 表达 式 中 ， 系 数 几乎 总 是 不 为 零 的 ， 因 此 所 有 分 量 都 参与 重建 过 程 。 
不 是 问题 ， 我 们 对 每 个 分 是 
有 一 些 任务 有 助 于 分 析 更 大 的 构建 原子 ， 前 提 是 每 个 向 量 都 可 以 表示 为 它们 的 稀 
库 ， 其 中 字典 包含 的 术语 多 于 每 个 文档 中 涉及 的 术语 。 
因为 原子 集 定 义 了 一 种 字典 ， 包 含 可 用 

















降 维 的 目的 ， 这 3 









































最 经 


的 示例 是 文本 语 料 








的 模型 通常 被 称 为 字典 学 习 算法 ， 











= (VX + YX + 

















所 有 单词 。 
并 且 表 示 形 式 通常 
且 向 量 需 要 更 密集 。 









































这 种 学 习 问 题 可 以 通过 最 小 化 函数 ， 对 解 Lj 范 数 施加 和 钨 
的 原因 超出 了 本 书 的 范围 ， 但 是 感 兴趣 的 读者 可 以 在 Mastering Machine Learning 
更 多 的 论述 。 

字典 学 习 《〈 以 及 稀 朴 PCA) 的 问题 可 以 


人 





稀疏 性 
Algorithms 中 找到 








这 是 算法 的 一 个 特殊 情 


normalize components=False )， 


让 我 们 考虑 MNIST 数据 位 





度 级 别 ( 例 如 a = 2.0) 执行 大 

















例 中 显示 : 





当 原 子 的 数量 大 和 
是 稀 玖 的 。 相 





况 ， 入 中 分 量 UE 被 强 第 


VIX ) | 











。。 一 QiX,l+ oo. 


量 的 解释 方差 更 感 兴 
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十 ,Xn 





出 于 
> 以 便 限 制 它们 。 然而 ， 











琉 组 合 。 
这 些 类 型 











样本 的 维 数 n 


























于 创建 新 样本 的 





时 ， 字 典 被 称 为 “ 超 完备 ”(Over-complete )， 





反 ,， 当 <n 时, 字典 被 称 为 “不 完备 ”(Under-complete)， 
































1 以 下 式 子 表达 ; 
| 


志 


v=1 








罚 来 轻松 解决 。 这 种 约束 导致 




















1 具有 


位 长 度 〈( 除非 存在 参数 

















且 系 数 三 受到 惩罚 ， 以 便 增 加 












































， 它 使 用 30 个 分 量 〈 生 














硫 PCA 。 数 组 和 应 该 包含 规范 


from sklearn.decomposition import SparsePCA 





稀 朴 性 〈 与 系数 wx 成 比例 )。 


成 一 个 不 完整 的 字典 ) 和 中 高 稀 玻 
化 的 样本 ， 并 在 以 下 PCA 示 





spca = SparsePCA(n components=30, alpha=2.0, normalize components=True, 


random state=1000) 
spca.fit(x) 


在 训练 过 程 结 束 时 ， 数 组 components 包 





含 原子 ， 如 图 























不 难 理解 每 个 数字 都 可 以 


























例如 证 我 们 考虑 一 下 数字 X[0] 的 转换 : 


y = spca.transform(X[0] 


.reshape (1, -1)) 














ES 
开 少 仁 





.Squeeze () 


7-10 所 示 。 
这 些 原子 组 成 。 然 而 ， 考 虑 到 原子 数 ， 稀 疏 度 不 能 非常 大 。 
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分 析 


系数 的 绝对 值 如 图 


Coefficient (absolute values) 
po 9 





S、8 等 ) 和 一 些 空 值 或 可 久 
长 度 (30 个 分 量 ) 增加 ， 

















7-11 所 示 。 


2 14 1 

















图 7-10 稀疏 PCA 算法 提取 的 分 量 








2 5 下 27 六 29 30 
Component 


图 7-11 区 0] 的 稀 玻 转换 的 系数 的 绝对 值 





显然 有 一 些 主 成 分 (例如 2、7、13、17、21、24、26、27 和 30)， 一 些 次 成 分 〈 例 如 
各 的 成 分 (例如 1、3、6 等 )。 如 果 稀 疏 度 级 别 以 相同 的 代码 
则 对 应 空 成 分 的 系数 将 降 至 零 ， 而 如 果 代 码 长 度 也 增加 (例如 = 











100)， 字 上 典 将 变 得 超 完备 ， 空 系数 的 数量 也 会 增加 。 
7.2.6” 非 负 钴 阵 分 解 


当 数 据 集 是非 负数 时 ， 我 们 可 以 应 用 一 种 分 解 技 术 〔 例 如 在 Learning the parts of 
objects by non-negative matrix factorization 中 ), 当 任 务 的 目标 是 提取 对 应 于 样本 的 结构 部 分 








的 原子 时 ， 事 实证 明 该 








技术 更 为 可 靠 。 














例如 在 图 像 的 情况 下 ， 它 们 应 该 是 几何 元 素 ， 甚 至 
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是 更 复杂 的 部 分 。 非 负 和 矩阵 分 解 强加 的 主要 条 件 是 涉及 的 所 有 和 矩阵 必须 是 非 负 的 并 且 矶 = 
UV。 因 此 ， 一 旦 定义 了 一 个 范 数 N( 例 如 Frobenius 范 数 )， 人 简单 的 目标 就 变 成 如 下 : 














有 更 大 的 灵活 性 )， 因 此 ， 我 们 通常 通过 对 





miny y |X 宇 | ， 


且 ， 为 了 在 更 改 解 以 满足 特定 要 求 时 具 














由 于 在 需要 稀 玻 性 时 这 通常 是 不 可 接受 的 〈# 










































































min x or, + aplol + 


Frobenius 〈Z2 的 矩 
(例如 在 scikit-learn 中 ): 


Ph) +3a0 -BP 


























阵 扩 展 ) 和 工 范 数 例如 在 


i 本 IF 2 























双重 正则 化 允许 你 通过 避免 类 似 于 












































的 稀 玻 度 和 更 好 的 匹配 《〈 由 于 解 是 次 优 的 ， 
时 也 更 灵活 ， 因 此 这 增加 了 通常 可 实现 的 可 能 性 ) 


0.1 VE scikit-learn 中 称 为 11 ratio)。 此 


化 。 








监督 模型 过 度 拟 合 的 效果 
它 在 适应 从 相同 数据 生成 过 程 中 抽取 的 新 样本 








， 来 获得 分 量 和 样本 之 间 




















现在 ， 让 我 们 考虑 一 下 MNIST 数据 集 ， 将 其 分 解 为 50 个 原子 ,最初 设置 a= 2.0 和 p= 















































这 个 过 程 很 简单 ， 类 似 于 稀疏 的 PCA: 





from sklearn.decomposition import NMF 











nmf = NMF (n components=50, alpha=2.0, 
nmf .fit (xX) 
在 训练 过 程 结 束 时 ， 分 量 《〈 原 子 ) 如 图 7-12 所 示 。 














置 将 强制 中 等 稀疏 度 和 较 强 的 L2 /Frobenius 正则 


11 ratio=0.1, random _ state=1000) 





图 7-12 
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与 我 们 在 标准 字典 学 习 中 所 观察 到 的 相反 ， 原 子 现在 更 加 结构 化 ， 并 且 它 们 会 再 现 数 
字 的 特定 部 分 〈 例 如 垂直 或 水 平 的 边 、 圆 形 、 点 等 )。 因 此 ,我 们 可 以 期 待 更 多 的 稀 疏 表示 ， 
因为 更 少 的 分 量 足以 生成 一 个 数字 。 考 虑 到 7.2.5 节 (数字 0]) 中 的 示例 ， 所 有 分 量 的 绝 
对 系数 如 图 7-13 所 示 。 
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1 2 3 4 0T19202220 2 5 了 22Q3D33223343533 了 3394 和 4 2 
Cemponent 


Coefficient (absolute values) 











图 7-13 ”XT0] 的 NNMEF 的 绝对 系数 


3 个 主 成 分 是 (3、24 和 4$)。 因 此 ， 我 们 可 以 尝试 将 样本 表达 为 它们 的 组 合 。 系 数 分 
别 为 0.19、0.18 和 0.16， 如 图 7-14 所 示 (数字 X[0] 表 示 为 零 )。 


[本 加 四 和 i 


图 7-14 基于 3 个 主 成 分 来 解构 数字 XI0] 






































值得 注意 的 是 算法 是 如 何 选择 原子 的 。 即 使 这 个 过 程 受到 参数 c 和 Bp 以 及 范 数 的 影响 ， 
我 们 也 可 以 观察 到 ， 例 如 第 3 个 原子 (图 中 的 第 一 个 ) 可 以 由 具有 0、3 和 8 的 数字 共享 ; 
最 后 一 个 原子 可 以 组 成 数字 0、9。 当 原子 的 粒度 太 粗 糙 时 ， 具 有 较 弱 万 惩罚 的 超 完备 字 ?4 
可 能 是 有 用 的 。 当 然 ， 每 个 问题 都 需要 特定 的 解决 方案 。 因 此 ， 我 强烈 建议 与 该 领域 专家 
一 起 检查 原子 的 结构 。 作 为 练习 ， 我 建议 你 将 NNMF 应 用 于 另 一 个 小 图 像 数据 集 〈 例 如 
Olivetti、Cifar10 或 STL-10)， 并 尝试 找到 隔离 固定 数量 结构 部 件 所 需 的 正确 参数 (例如 对 
面部 而 言 ， 它 们 可 以 是 眼睛 、 鼻 子 和 嘴巴 等 )。 
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使 用 标准 PCA (或 其 他 技术 ， 如 











统计 上 是 独立 的 。 换 句 话 
的 。 如 果 有 n 
































有 许多 重要 的 

















单个 信号 。 出 





时 ， 我 们 的 目 
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因子 分 析 ) 时 ， 分 量 是 不 相关 的 ， 但 不 能 保证 它们 在 











说 ， 假 设 我 们 有 




















D(Xi, Xs, X,) = p(X) P(X) "p(X,) 
任务 基于 一 个 称 为 鸡尾酒 会 (Cocktail Party) 的 常见 模型 。 在 这 种 
























































(这 不 是 一 个 


表示 如 下 : 





换 句 话说 ， 我 们 将 每 个 样本 表示 为 许多 独立 因子 的 乘积 ， 六 
分 布 。 必 须 绝 对 强制 执行 的 唯一 条 件 是 非 高 斯 性 (否则 ， 





限制 条 件 ， 


























T=AzVXeX Hp(z;0)= 





数 f(z) 不 能 是 二 次 多 项 式 。 在 实践 中 ， 我 们 还 希望 包 提 





重 尾 分 布 (E 





检查 标准 化 的 第 4 次 矩阵 来 验 订 





对 于 高 斯 分 布 ， 峰 度 为 3。1 
为 超 高 斯 或 leptokurtic， 而 














和 概率 仅 在 非常 短 的 范围 内 高 ， 然 后 突然 下 
FE， 也 称 为 峰 度 (Kurtosis ): 








大 G) 
2 


情况 下 ， 我 们 可 以 假设 〈 或 者 我 们 知道 ) 许多 不 同 的 独立 源 《〈 例 如 声音 和 音乐 ) 重 登 # 
标 是 尝试 通过 对 每 个 样本 应 用 线性 变换 来 分 离 源 。 让 我 们 考虑 一 
个 白化 数据 集 X( 所 有 分 量 都 具有 相同 的 信息 内 容 ), 我 们 可 以 假设 从 高 斯 分 布 M0, DD 中 采样 
因为 许多 不 同 的 源 很 容易 重合 并 收敛 到 





FE 态 分 布 )。 





4 


























Kurtosis(X )= a 
OO. 























分 布 的 一 个 例子 是 拉 普 拉 斯 《Laplace) 的 一 种 ， 如 医 
不 可 的 是 ， 对 异常 值 而 言 ， 由 于 其 
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因 











Independent Component Analysis，FastICA ) 的 


























但 是 








! 解 基本 思想 会 有 所 帮助 。 可 以 证 明 ， 在 具 












































; 云 。 





7-15 所 示 。 


缺乏 鲁 棒 性 ， 所 以 我 们 不 这 
为 它 涉 及 4 次 于， 即使 很 小 的 值 也 可 以 被 放大 并 且 改 变 最 终结 果 。 
噪声 高 斯 可 以 显示 为 超 高 斯 )。 为 此 ，Hyvarinen 和 
Algorithms and Applications 中 ) 提 出 了 一 种 基于 negentropy 概念 

















分 量 将 变 得 无 法 
中 等 稀 疏 度 ， 
降 到 几乎 为 零 )。 这 











个 数据 集 X， 它 是 从 联合 概率 分 布 PCO 中 得 出 
个 分 量 ， 我 们 不 能 总 是 确保 以 下 等 式 成 立 : 

















生成 





因此 ， 目 标 可 以 








F 具 有 基于 指数 函数 的 先 验 











因此 








励 使 用 出 
例如 

















我 们 不 打 


区 分 )。 因 此 ， 函 





我 们 期 望 峰 值 和 
情况 可 以 通过 

















于 这 通常 是 参考 值 ， 所 以 Kurtosis(X) > 3 的 所 有 分 布 都 称 
有 Kurtosis(X) < 3 的 分 布 称 为 亚 高 斯 或 platykurtic。 前 一 类 


条 度 〔 也 就 是 说 ， 
尾部 有 异常 值 的 





Oja (在 Independent Component Analysis: 
的 快速 独立 分 量 分 析 (Fast 








在 本 书 





FP 描述 整个 模型 。 
























































有 相同 方差 
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的 所 有 分 布 之 间 ， 高 
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大 的 烂 。 因 此 ， 如 果 已 经 从 具有 协 方差 民 的 分 布 中 得 出 数据 集 厌 ( 零 中 心 )， 则 可 以 将 丈 的 
负 粒 定义 为 高 斯 V (0, 区 ) 的 炳 与 炳 之 间 的 差 : 
Hy(X)=H(N(0,5))-H(X) 




















Gaussian (Kurtosis = 3) Laplace (Kurtosis = 6) 


of 
00 
2 0 2 4 6 6 4 -2 0 2 4 6 


图 7-15 ”高 斯 分 布 ( 左 ) 和 拉 普 拉 斯 分 布 〈 右 ) 的 概率 密度 函数 















































因此 ， 我 们 的 目标 是 通过 减少 H(W) 来 减少 HNX) (总 是 大 于 或 等 于 零 )。FastICA 算法 
基于 特定 函数 组 合 的 如 CO 近似 值 。 最 常见 的 称 为 logcosh (也 是 scikit-learn 中 的 默认 值 )， 
如 下 所 示 : 





























f(x)= a 
a 


通过 这 种 技巧 ， 我 们 可 以 更 容易 地 优化 负 焙 ， 并 且 最 终 的 分 解 肯 定 包含 独立 分 量 。 现 
在 , 让 我 们 将 FastICA 算法 应 用 于 MNIST 数据 集 ( 为 了 提高 精度 , 我 们 设置 max_iter=10000 
和 tol=1e-5): 

















from sklearn.decomposition import FastICA 


ica = FastICA(n components=50, max iter=10000, tol=1le-5, random state=1000) 
ica.fit (x) 























FastICA 算法 提取 的 50 个 独立 分 量 ( 始 终 通过 components 实例 变量 获得 )， 如 图 7-16 
所 示 。 


在 这 种 情况 下 ， 分 量 可 以 立即 识别 为 数字 的 一 部 分 《我 建议 大 家 通过 减少 或 增加 分 量 


的 数量 到 最 多 64 个 ， 来 重复 该 示例 ， 这 是 考虑 到 数据 集 的 维度 的 最 大 数量 )。 分 量 倾向 于 
达到 相应 分 布 的 平均 位 置 。 因 此 , 使 用 较 小 的 数字 , 我 们 就 可 以 区 分 更 多 的 结构 化 模式 (可 
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以 被 认为 是 不 同 的 重 又 信号 )， 而 使 用 大 量 分 量 会 0 以 特征 为 中 心 的 元 素 。 然 而 ,与 
NNMEF 相反 ，FastICA 不 保证 提取 样本 的 实际 部 分 ， 而 是 提取 更 完整 的 区 域 。 换 句 话 说 ， 
虽然 NNMEF 可 以 很 容易 地 检测 到 例如 某 些 单个 边 ,但 FastICA 倾向 于 将 样本 视 为 不 同 信和 号 
的 总 和 ， 在 图 像 显 示 的 情况 下 ， 除 非 分 量 的 数量 急剧 增加 ， 否 则 这 些 信 号 通常 涉及 样本 的 
整个 维度 。 为 了 更 好 地 理解 这 个 概念 ， 让 我 们 考虑 一 下 Olivetti 面部 数据 集 ， 其 中 包含 400 
个 64 像素 x64 像素 的 灰 度 肖像 : 


















































from sklearn.datasets import fetch olivetti faces 
faces = fetch olivetti faces (shuffle=True, random state=1000) 


二 | 
图 攻 癌 和 前半 国 交 国 岗 司 
| | 1 了 > 
国 国 阅 国 赠 了 网关 明 国 梳 
嚼 虚 图 加 贸 柄 国药 出 ， 


图 7-16 FastICA 算法 提取 的 50 个 独立 分 量 


前 10 个 面部 样本 如 图 7-17 所 示 。 


四 加 加 国 丽 莒 转圈 国 


图 7-17 从 Olivetti 面部 数据 集中 提取 的 面部 样本 (前 10 个 ) 
现在 ， 让 我 们 提取 100 个 独立 分 量 : 












































ica = FastICA(n components=100, max iter=10000, tol=1le-5, 
random state=1000) 
ica.fit (faces['data']) 
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前 50 个 独立 分 量 ， 如 图 7-18 所 示 。 
2 | PS ~ To i 一 . ,A rw [和 
| > “对 ~ Se f 
四 EE 国民 
aa 本 加 轩 了 | 


图 7-18 FastICA 提取 的 前 50 个 〈 共 100 个 ) 独立 分 量 


正如 你 所 看 到 的 ， 每 个 分 量 类 似 于 元 脸 (有 时 称 为 特征 脸 )， 由 于 所 有 剩余 的 分 量 〈 即 
使 无 法 在 精确 的 样本 集中 立即 识别 出 它们 ) 都 具有 一 些 特 定 的 显 性 特征 以 及 次 要 贡献 ， 因 
此 ， 当 分 量 数量 增加 到 350 时 ， 效 果 变 得 更 加 明显 ， 如 图 7-19 所 示 。 


1 Y 
加 AN A Ft 
ud 5 A 
ff f ri 
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图 7-19 FastICA 提取 的 前 50 个 ( 共 350 个 ) 独立 分 量 
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在 这 种 情况 下 ， 次 要 特征 不 那么 占 优 势 ， 因 为 分 布 重 合 较 多 ， 并 且 它 们 中 的 每 一 个 都 
以 原子 特征 脸 为 中 心 。 当 然 ， 如 果 没 有 完整 的 领域 知识 ， 就 无 法 定义 最 佳 分 量 数 。 例 如 在 
Olivetti 面部 数据 集中 ， 识 别 特定 子 元 素 〈 例 如 眼镜 的 位 置 ) 或 更 完整 的 面部 表情 可 能 是 有 
帮助 的 。 在 前 一 种 情况 下 ， 更 多 的 分 量 产生 更 集中 的 解 〈《 即 使 它们 在 全 局 上 不 易 区 分 )， 而 
在 后 一 种 情况 下 ， 较 小 的 分 量 〈 例 如 在 前 面 的 示例 中 ) 产生 更 完整 的 结 ， 从 而 可 以 评估 不 
同 的 影响 因素 。 就 信号 方面 , 分 量 的 数量 应 该 等 于 预期 的 重 倒 因子 数 (假设 它们 是 独立 的 )。 
例如 一 个 音频 信号 可 以 包含 一 个 人 在 机 场 交 谈 的 录音 ， 以 及 宣 2 的 背景 声音 。 在 
这 种 情况 下 ， 场 景 可 以 由 3 个 分 量 组 成 : 两 个 声音 和 一 个 噪声 。 由 于 噪声 将 部 分 地 分 解 为 
主 成 分 ， 因 此 最 终 数 量 将 等 于 2。 


7.4 具有 潜在 Dirichlet 分 配 的 主题 建 模 
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我 们 现在 将 考虑 另 一 种 在 处 理 文档 时 非常 有 用 的 分 解 〈 即 NLP)。 理 论 部 分 不 是 很 容 

易 理 解 ， 因 为 它 需 要 深入 了 解 概 率 论 和 统计 学 〈 可 以 在 论文 Latent Dirichlet 4llocation 中 找 

到 )。 因此, 我 们 只 讨论 主要 元 素 , 且 没 有 任何 数学 参考 (Machine Learning Algorithms, Second 

Edition 中 也 有 更 简洁 的 描述 )。 让 我 们 考虑 一 组 文档 d;， 也 称 为 语料库 ‘(Corpus )， 其 原子 
(或 分 量 ) 是 单词 w: 
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= Wis Wi Win) and Corpus = (di,d,,"…,d,) 
收集 完 所 有 单词 后 ， 我 们 可 以 构建 一 个 字典 : 
Dictionary = {Wi,w,,"*", w,} 
我 们 还 可 以 表示 以 下 不 等 式 〔N(*) 计 算 集 的 元 素数 ): 
N(d;) < N(Dictionary)Vi e Corpus 
这 意味 着 文档 之 间 的 单词 分 布 是 稀 玻 的 ， 因 为 在 单个 文档 中 只 使 用 了 几 个 单词 。 而 前 
者 的 选择 是 对 称 Dirichlet 分 布 〈《 模 型 以 它 命 名 )， 它 非常 稀 玻 〈 此 外 ， 和 它 是 分 类 分 布 的 共 斩 


先 验 ， 这 是 一 阶 多 项 式 ， 因 此 很 容易 纳入 模型 )。 概 率 密 度 函 数 〈 因 为 分 布 是 对 称 的 ， 参 数 
o=xwVi) 如 下 : 




























































































oa 人 TD 全 nel 2 ( for the symmetry) 








现在 ， 让 我 们 考虑 将 文档 的 语义 分 组 到 主题 %n， 并 假设 每 个 主题 都 以 少量 特殊 词 表 征 : 


ti = (Was Ws Wo) and Topics = (t,t,,"*,t,) 
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这 意味 着 主题 之 间 的 单词 分 布 也 很 稀疏 。 因 此 ， 我 们 有 完整 的 联合 概率 《单词 ， 主 题 ) 
并 且 我 们 想 要 确定 条 件 概率 POuwl 妇 和 p(t|wi)。 换 句 话 说 ， 给 定 一 个 文档 ， 该 文档 是 术语 的 
集合 每 个 术语 都 有 一 个 边际 概率 p(wi))， 我 们 想 要 计算 这 样 一 个 文档 属于 特定 主题 的 概 
率 。 由 于 文档 被 温和 地 分 配给 所 有 主题 〈 也 就 是 说 ， 它 可 以 在 不 同 程度 上 属于 一 个 以 上 的 
主题 )， 因 此 我 们 需要 考虑 一 个 稀疏 的 主题 文档 分 布 ， 从 中 得 出 主题 混合 (0,): 
0 ~ Dir(a) 
以 类 似 的 方式 ， 我 们 需要 考虑 主题 词 分 布 ( 因 为 一 个 
共享 )， 我 们 可 以 从 中 得 出 主题 词 混合 样本 p: 
pb;~ Dir(y) 


潜在 Dirichlet 分 配 (Latent Dirichlet Allocation，LDA) 是 一 种 生成 模型 (训练 目标 以 
简单 的 方式 找到 最 佳 参数 a 和 y)， 能 够 从 语料库 中 提取 固定 数量 的 主题 并 用 一 组 话 来 表述 
它们 。 给 定 一 个 示例 文档 ， 它 能 够 通过 提供 主题 混合 概率 向 量 (0; = (p(n), p(t2), …, p(t)) 
将 其 分 配给 一 个 主题 。 它 还 可 以 处 理 未 知 的 文档 (使 用 相同 的 字典 )。 

现在 , 让 我 们 将 LDA 应 用 于 20 个 新 闻 组 数据 集 的 子 集 ， 其 中 包含 为 NLP 研究 公开 发 
布 的 数 千 条 消息 。 特 别 地 ， 我 们 想 要 对 rec.autos 和 comp.sys.mac.hardware 子 组 建 模 。 我 们 
可 以 使 用 scikit-learn 内 置 的 函数 fetch 20newsgroupsO0， 要 求 删除 所 有 不 必要 的 标题 、 页 脚 
和 引用 《附加 答案 的 其 他 帖子 ); 












































































































































单词 可 以 由 不 同 程度 的 更 多 了 


上 
沼 

















































































































from sklearn.datasets import fetch 20newsgroups 


news = fetch 20newsgroups (subset="'all', categories=('rec.autos', 





'comp.sys.mac.hardware'), remove=('headers', 'footers', "Gdquotes ')， 
random state=1000) 


corpus = news['data'] 
labels = news['target' 














此 时 ， 我 们 需要 对 语料库 进行 向 量化 。 换 句 话 说， 我 们 需要 将 每 个 文档 转换 为 包含 词 
汇 表 中 每 个 单词 的 频率 〈 计 数 ) 的 稀 玻 向 量 : 
0 = {Wis Ws, Ww,} > f (dq)) = {Nn(W),n(W,), ON 
我 们 将 使 用 CountVectorizer 类 执行 此 步骤 ， 要 求 去 除 方言 并 删除 具有 非常 高 的 相对 频 
率 但 不 具有 代表 性 的 停 用 词 ( 例 如 英语 中 的 “和 ”“ 等 等 ”)。 此 外 ， 我 们 强制 标记 器 排除 所 
有 非 纯 文本 的 标记 (通过 设置 token_pattern='[a-z]+')。 在 其 他 情况 下 可 能 不 同 , 但 在 这 种 性 
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况 下 ， 我 们 不 想 依 赖 数 字 和 符号 ; 





from sklearn.feature extraction.text import CountVectorizer 
cV = CountVectorizer(strip accents='unicode', stop words='english', 
analyzer='word', token pattern="'[a-z]+"') 


Xc = cv.fit transform(corpus) 


print (len(cv.vocabulary )) 





代码 段 的 输出 如 下 : 


14182 





将 


因此 ， 每 个 文档 都 是 14182 维 的 稀 玖 癌 量 (显然 大 多 数值 都 为 空 )。 我 们 现在 可 以 通 
n_components=2 来 执行 LDA， 因 为 我 们 希望 提取 两 个 主题 : 

















from sklearn.decomposition import LatentDirichletAllocation 


lda = LatentDirichletAllocation(n components=2, learning method='online', 
max_ iter=100, random state=1000) 
Xl1 = lda.fit transform(xc) 


在 训练 过 程 之 后 ，components_ 实 例 变 量 包 含 每 对 (单词 和 主题 的 相对 频率 (以 计数 
为 单位 )。 因 此 ， 在 我 们 的 例子 中 ， 它 的 形状 是 (2,14,182)， 为 了 定义 主题 i，components [i, 
j] 元 素 (其 中 i Ee (0,1) 和 j E (0, 14, 181)) 可 以 解释 成 单词 7 的 重要 性 。 因 此 ， 我 们 有 兴趣 
检查 两 个 主题 的 前 10 个 单词 : 















































import numpy as np 


Mwts lda = np.argsort (lda.components , axis=1)[::-1] 


for t in range (2): 
print("\nTopie + str(t)) 
for i in range(10): 
print (cv.get feature names () [Mwts ldalt, i]]) 








价 出 如 下 : 


Topic 0 
compresion 


progress 
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deliberate 
dependency 
preemptive 
WV 

nmsu 

bpp 
Coexist 


logically 


Topic 1 
argues 
compromising 
overtorque 
moly 

forbid 
cautioned 
sauber 
explosion 
eventual 


agressive 














我 们 很 容易 〈 考 虑 一 些 非常 特殊 的 术语 ) 理解 Topic 0 已 经 分 配给 了 comp.sys.mac. 
hardware，Topic 1 已 分 配给 rec.autos〈 不 境 的 是 ， 这 个 过 程 不 能 基于 自动 检测 ， 因 为 语义 
必须 由 人 解释 )。 为 了 评估 模型 ， 我 们 考虑 两 个 示例 消息 ， 如 下 所 示 : 























print (corpus[100]) 
print (corpus[200]) 


输出 〈 仅 限于 几 行 ) 如 下 : 


| 


I'm trying to find some information on accelerator boards for the SE. Has 





anyone used any in the past, especially those from Extreme Systems, Novy or 
MacProducts? I'm looking for a board that will support extended video, 





especially Radius's two-page monitor. Has anyone used Connectix Virtual in 
conjunction with their board? Any software snafus? Are there any stats 








anywhere on the speed difference between a board with an FPU and one 
without? Please send mail directly to me. Thanks. 


The new Cruisers DO NOT have independent suspension in the front. They 
still 
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run a Straight axle but with coils. The 4Runner is the one witnh 
independent 


front. The Cruisers have incredipble wheel travel with this system. 








The 91-up Cruiser does have full time 4WD, but the center diff locks in 
low range. My brother has a 91 and is an incredipbly sturdy Vehicle which 
has done all the 4+ trails in Moab without a tow. The 93 and later is even 
better with the bigger engine and locking diffs. 























因此 ， 第 一 篇 帖子 显然 是 与 图 形 有 关 的 消息 ， 而 第 二 篇 帖子 则 是 一 条 新 闻 。 让 我 们 为 
它们 计算 主题 混合 ， 如 下 所 示 : 














从 于 二 站 七 区 区 二 [于 DO0] 
print (Xl1[200]) 





输出 如 下 : 


[0.98512538 0.01487462] 
[0.01528335 0.98471665] 





因此 , 第 一 条 消息 具有 约 98% 的 概率 属于 Topic 0, 而 第 二 条 消息 几乎 不 可 能 分 配给 Topic 1。 
这 确认 分 解 工作 正常 。 为 了 更 好 地 了 解 整体 分 布 ， 可 视 化 属于 每 个 类 别 的 消息 的 混合 将 很 
有 帮助 ， 如 图 7-20 所 示 。 








comp.sys.mac.hardware rec.autos 


00 02 04 06 08 10 00 02 


04 06 08 10 
Topic0 


Topic0 





图 7-20 ”comp.sys.mac.hardware( 左 ) 和 rec.autos( 右 ) 的 主题 混合 











如 你 所 见 , 主题 几乎 是 正 交 的 。 属 于 rec.autos 的 大 多 数 消息 的 p(to) < 0.5 以 及 p(t1) > 0.5; 
而 comp.sys.mac.hardware 略 有 重 登 ,其 中 不 具有 p(to) > 0.5 和 p(n) < 0.5 的 消息 略 多 。 
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能 是 由 于 存在 可 以 使 两 个 主题 具有 相 








同 重要 性 的 单词 (例如 discussion 或 debate 的 术语 在 








两 个 新 闻 组 中 可 能 同样 存在 )。 作 为 练习 , 我 建议 你 使 用 更 多 子 集 , 尝试 证 明 主题 的 正 交 性 ， 





并 检测 可 能 导致 错误 分 配 的 单词 。 


站 4 二 


/OA 一 口 


7.5 





在 本 章 中 ， 我 们 介绍 了 可 用 于 降 维和 字 

















(a 


























具有 对 1 























办 方差 矩阵 进行 对 角 人 





， 并 提供 对 每 个 特征 



































选择 
一 种 线 | 
基于 内 核 的 变 体 。 在 我 们 的 示例 中 ， 





使 用 最 大 化 残 差 来 解释 方差 ( 























生 方 法 ， 因 此 通常 不 能 与 非 线 必 














可 用 











尔 了 

















上 子 衬 


瑟 / 
系 Z 








间 ，PCA 可 以 在 子 空间 中 确 


定 

















稀 玻 PCA 和 字典 学 习 是 广泛 使 





的 技术 ， 当 我 











性 组 合 ) 以 生成 样本 时 ， 可 以 使 
的 超 完备 的 字典 ， 这 相当 于 说 我 们 
稀 玻 的 原因 )。PCA 可 以 提取 不 相 
这 个 原 























j 这 些 技术 。 在 








法 ， 它 涉及 查找 分 量 ， 该 分 量 是 与 方差 较 大 的 方向 相关 联 的 数据 集 最 重要 的 分 量 。 
重要 性 即时 测量 的 双重 效果 ， 从 而 简化 
较 少 分 量 来 解释 的 方差 
数据 集 一 起 使 用 。 出 于 这 个 原因 
解 了 基于 RBF 内 核 如 何 将 非 线性 可 分 离 数据 集 投 
个 判别 分 量 。 
门 需要 提取 可 以 混合 的 构建 原子 (以 线 
许多 情况 下 ， 我 们 的 目标 是 找到 一 个 所 谓 














学 习 的 不 同 技术 。PCA 是 一 种 非常 著名 的 方 





该 方法 





























量 )。 由 于 PCA 本 质 上 是 
， 我 们 已 经 开发 了 














期 望 比 实际 需要 更 多 的 原 
关 的 


分 量 ， 




















子 构 建 每 个 样本 (这 就 是 表示 
且 很 少 找 不 到 统计 意义 上 独立 的 分 量 。 出 于 
内， 我 们 引入 了 FastICA 的 概念 ， 该 技术 是 为 了 从 样本 中 提取 重 益 源 而 开发 的 ， 可 








以 将 其 视 为 独立 原因 的 总 和 (例如 声音 或 视觉 元 素 )。 另 一 种 具有 特殊 表征 的 方法 是 NNMEF， 











它 既 可 以 生成 稀疏 表示 ， 也 可 


它们 可 以 表示 眼睛 、 外 了 等 )。 


























以 生成 一 组 类 似 于 样本 特定 部 分 的 分 量 ( 例 如 对 面部 而 言 ， 


7.4 节 介 绍 了 LDA 的 概念 ，LDA 








以 在 给 定 文档 语料库 〈 即 文档 





属于 每 个 特定 3 








EE 
i 











' 主 题 建 模 技 术 ， 可 








FE 题 的 概率 〉 的 情况 下 查找 主题 混合 。 


在 第 8 章 中 ， 我 们 将 介绍 一 些 基 于 无 监督 范式 的 神经 模型 。 将 特别 讨论 深度 置信 网 络 、 



































自动 编码 器 和 在 没有 协 方差 矩阵 的 特 和 有 
7.6 ”问题 
] . 




















值 (第 





主 成 分 ) 允许 水 平 判别 吗 ? 
























































了 














3. PCA 提取 的 分 量 在 统计 上 是 独立 








的 。 正 确 吗 ? 
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地 少 们 





























FE 分解 〈 不 是 SVD) 的 情况 下 提取 数据 集 的 主 成 分 模型 。 





数据 集 蕊 具有 协 方差 矩阵 C=diag(2,1)。 你 对 PCA 有 什么 期 望 ? 


2. 考虑 到 问题 1， 如 果 针 是 以 0 为 中 心 且 球 Bos(0, 0) 为 空 ， 我 们 可 以 假设 x = 0 的 阔 


4. Kurt(X)=5 的 分 布 适用 于 ICA。 正 确 吗 ? 


5. 包含 样本 (1,2) 








和 (0,-3) 的 数据 集 钱 的 NNMEF 是 多 少 ? 





7.6 问题 

















6. 10 个 文档 的 语料库 与 10 个 术语 的 字典 相关 联 。 我 们 知道 每 个 文档 的 固定 长 度 





























个 字 。 该 字典 是 否 超 完备 ? 


7. 基于 内 核 的 PCA 与 二 次 内 核 一 起 使 月 




















间 维 度 是 多 少 ? 
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止 
二 少 们 
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是 30 


月 。 如 果 原 始 维度 为 2， 那么 执行 PCA 的 新 空 


| 80 
Ed Eh 






































在 本 章 中 ， 我 们 将 讨论 一 些 可 用 于 无 监督 任务 的 神经 模型 。 选 择 神经 网 络 (通常 是 深 
层 网 络 ) 可 以 解决 高 维 数据 集 的 复杂 性 ， 这 些 数据 集 的 某 些 特性 需要 复杂 的 处 理 单元 〈 例 
如 图 像 )。 

本 章 将 着 重 讨论 以 下 主题 。 

。 自 编码 器 。 

。 去 噪 自 编码 器 。 

。 稀 玻 自 编码 器 。 

。 变 分 自 编码 器 。 

。 PCA 神经 网 络 。 


。 Sanger 网 络 。 







































































e Rubner-Tavan 网 络 。 


。 无 监督 的 深度 置信 网 络 (Deep Belief Networks, DBN)。 


8.1 技术 要 求 





本 章 中 的 代码 需求 如 下 。 
。 Python 3.5+〔 强 烈 推 荐 Anaconda 发 行 版 )。 
。 库 。 
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nm SciPy 0.19+。 

@ NumPy 1.10+。 

m scikit-learn 0.20+。 

nm pandas 0.22+。 

m Matplotlib 2.0+。 

m seaborn 0.9+。 

m TensorFlow 1.5+。 

@ 无 监督 的 深度 信念 网 络 (Deep Belief Network，DBN )。 
示例 代码 可 在 本 书 配 套 的 代码 包 中 找到 。 


8.2” 自 编码 器 






































在 第 7 章 中 ， 我 们 讨论 了 一 些 可 以 减少 数据 集 维度 的 常用 方法 ， 并 且 这 些 方 法 具有 独 
特 的 统计 属性 〈 例 如 协 方差 矩阵 )。 但 当 复 杂 度 增加 时 ， 即 使 是 基于 内 核 的 主 成 分 分 析 也 可 




















能 无 法 找到 合适 的 低 维 表示 。 换 名 话说， 信息 的 丢失 可 以 克服 一 个 阐 值 ， 该 立 值 确 














呆 有 效 


地 重建 样本 的 可 能 性 。 而 自 编码 器 则 是 利用 神经 网 络 的 极端 非 线性 来 找到 给 定数 据 集 低 维 











表示 的 模型 。 特 别 地 ， 假 设 和 是 从 数据 生成 过 程 pays(x) 中 提取 的 一 组 样本 。 为 简单 起 见 ， 
我 们 将 考虑 xi;E 叶 "， 但 对 支撑 的 结构 没有 任何 限制 (例如 对 于 RGB 图 像 ，xiE 半 ” 









































mx3) 


自 编码 器 的 结构 分 为 两 个 部 分 : 编码 器 将 高 维 输入 转换 为 更 短 的 代码 ,解码 器 执行 逆 操 作 ， 





如 图 8-1 所 示 。 
和 


C 


X, EE Encoder me 3 EB Decoder BE 多 
e 


图 8-1 通用 自 编码 器 结构 
如 果 代 码 是 p 维 向 量 ， 则 可 以 将 编码 器 定义 为 参数 化 函数 e(*): 
z=e(X,0,)where x eR” and zeR? 


类 似 地 ， 解 码 器 是 另 一 个 参数 化 函数 d(*): 
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t=d(z,0,) wheret, eR" and 














因此 ， 完 整 自 编码 器 是 


个 复合 函数 ， 给 定 输入 样本 x;， 


zeR? 


提 作 


























部 =d(e(G,2)0)=8(G,O) 




















由 于 它们 











神经 网 络 实现 ， 因 























数 ) 








训练 自 编 





或 者 ， 





因此 ， 成 本 函数 现在 可 以 成 为 pasra(*) 和 gq(*) 之 间 的 Kullback-Leibler 散 度 : 


Dalpim |) = Dp (Flo ee a ) i 
pi 的 精 是 常数 ， 因 此 我 们 可 以 通过 优化 过 程 ， 


由 于 








行 归 一 化 时 ， 


为 伯 努 利 分 布 是 二 元 的 , x;E {0, 1}?。 





考虑 到 数据 生成 过 程 ， 


于 paaa 和 gq 之 间 交 义 炉 的 最 
等 效 于 均 方 误差 ， 因 


CO TR 
m ; 


此 使 用 反 向 传播 算法 〈 通 


我 们 可 以 考虑 参数 化 条 





0) 


:最 佳 重建 作为 输出 : 





常 基于 均 方 误差 成 本 函 








件 分 布 q(*) 重 








q(t |)= P(e( 雹 ,0.),0) |t) 











\ 化 。 如 果 假 定 Pdata 和 9 为 
方法 是 可 互 换 的 。 在 某 些 必 











此 这 两 





下 


[可 






































] 伯 努 利 分 布 。 从 ] 





我 们 可 以 对 pu 和 9 使 




















{0, 1}” 的 成 功 优化 。 在 这 种 情况 下 ， 成 本 函数 变 为 : 


H(pamsq) = -2 log(%)+(1 ~ 名)log(1 一 名 ) 


8.2.1 











深度 卷 积 自 编码 如 示例 


证 我 们 实现 一 个 











集 相 对 较 小 ， 





然而 , sigmoid 输出 单元 的 使 


基于 TensorFlow 和 Olivetti 面部 数据 集 的 深度 卷 积 








这 并 不 完全 正确 ， 


新 表达 目标 : 


H( paaasq) = H( paaa,q) 十 大 


秆 其 排除 。 因 此 ， 散 度 的 最 小 化 等 
斯 ， 则 Kullback-Leibler 成 本 函数 
4 况 下 ， 当 数据 在 0， 
形式 上 来 说 ， 











1) 范围 内 进 
因 





























也 保证 























了 连续 样本 x; E 





! 自 编码 器 (该 数据 

















名 


能 力 )。 首 先 从 加 载 攻 











但 提供 了 良好 的 表达 














像 和 准 











from sklearn.datasets import fetch olivetti faces 


faces 


fetch olivetti faces (shuffle=True, rr 


XxX train = faces['images'] 


样本 是 400 个 64 像素 x64 像素 的 灰 度 图 
并 避免 内 存 问题 〈 此 操作 会 





计算 速度 











像 ， 我 们 } 
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二 少 位 


导致 视觉 精度 略 有 下 降 ， 


andom state=1000) 


各 调整 大 小 为 32 像素 x32 


如 果 你 有 足够 的 计 
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备 训练 集 开始 : 


象 素 ， 以 加 快 














资源 则 可 以 
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忽略 此 操作 )。 我 们 现在 可 以 定义 主要 常量 ，nb_epochs、batch_size、code_length 和 graph: 


import ten 


sorflow as tf 


nb epochs = 600 


batch size 


= 50 


code lengtn = 256 


width = 32 


height = 32 


graph = tf. 


因此 ， 我 们 将 模型 
压缩 比 是 4096/256=16 倍 。 当 然 ， 
配置 ， 以 最 大 限度 提 





Graph () 























4 从 代 600 代 ， 样 本 大 小 为 50 个 。 由 于 每 个 图 像 是 64x64=4096， 所 以 
这 个 选择 不 是 一 个 硬性 的 规则 ， 我 建议 你 始终 尝试 不 同 的 












































高 收敛 速度 和 最 终 精度 。 在 本 实例 中 ， 我 们 对 编码 器 进行 以 下 建 模 。 














。 具有 16 (3x3) 个 滤波 器 、(2x2) 步 幅 、ReLU 激活 和 相同 填充 的 2D 卷 积 
。 具有 32 (3x3) 个 滤波 器 、(1x1) 步 幅 、ReLU 激活 和 相同 填充 的 2D 卷 积 。 
。 具有 64 (3x3) 个 滤波 器 、(1x1) 步 幅 、ReLU 激活 和 相同 填充 的 2D 卷 积 。 
。 具有 128 (3x3) 个 滤波 器 、(1x1) 步 幅 、ReLU 激活 和 相同 填充 的 2D 卷 积 。 

















解码 器 利用 一 




























































































系列 转 置 卷 积 〈 也 称 反 卷 积 ) 











。 具有 128 (3x3) 个 滤波 器 、(2x2) 步 幅 、ReLU 激活 和 相同 填充 的 2D 转 置 卷 积 。 
。 具有 64 〈3x3) 个 滤波 器 、(1x1) 步 幅 、ReLU 激活 和 相同 填充 的 2D 转 置 卷 积 
。 具有 32 (3x3) 个 滤波 器 、(C1x1) 步 幅 、ReLU 激活 和 相同 填充 的 2D 转 置 卷 积 

。 具有 1 (3x3) 个 滤波 器 、(1x1) 步 幅 、Sigmoid 激活 和 相同 填充 的 2D 转 置 卷 积 








损失 函数 是 基 

























































































基于 重建 和 原始 图 











像 之 间 差 异 的 范 数 。 优 化 器 是 Adam， 学习 率 m=0.001。 


TensorFlow DAG 的 编码 器 部 分 如 下 : 


import ten 


with graph. 


sorflow as tf 


as_ default (): 


input images xl = tf.placeholder (tf.float32, shape=(None, X train. 


shape[1], XxX train.shape[2], 


1)) 


input images = tf.image.resize images (input images xl, (width, height), 
method=tf.image.ResizeMethod.BICUBIC) 





# Encoder 
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conv 0 = tf.layers.conv2d (inputs=input images, 
filters=16, 
kernel size=(3, 3), 
strides=(2, 2), 
activation=tf.nn.relu, 
padding="'same') 

conv 1 = tf.layers.conv2d(inputs=conv_ 0， 
filters=32, 
kernel size=(3, 3), 
activation=tf.nn.relu, 
padding="'same') 

conv 2 = tf.layers.conv2d(inputs=conv 1, 
filters=64, 
kernel size=(3, 3), 
activation=tf.nn.relu, 
padding="'same') 

conv_ 3 = tf.layers.conv2d (inputs=conv 2, 


filters=128, 
kernel size=(3, 


3), 


activation=tf.nn.relu, 





padding="'same') 


DAG 的 代码 部 分 如 下 : 
import tensorflow as tf 


with graph.as default (): 
# Code layer 
code input = tf.layers.flatten(inputs=conv_ 3) 
code layer = tf.layers.dense(inputs=code input, 
units=code length, 
activation=tf.nn.sigmoid) 





code mean = tf.reduce mean (code layer, axis=1) 


DAG 的 解码 器 部 分 如 下 : 
import tensorflow as tf 


with graph.as default (): 

# Decoder 

decoder input = tf.reshap 
1)) 





(code layer, (-1, int(width / 2), 


/ 2)， 
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convt 0 = tf.layers.conv2d transpose (inputs=decoder input, 
filters=128, 
kernel size=(3, 3), 
strides=(2, 2), 
activation=tf.nn.relu, 
padding="'same') 


convt 1 = tf.layers.conv2d transpose (inputs=convt 0, 
filters=64, 
kernel size=(3, 3), 
activation=tf.nn.relu, 
padding="'same') 


convt 2 = tf.layers.conv2d transpose (inputs=convt 1, 
filters=32, 
kernel size=(3, 3), 
activation=tf.nn.relu, 
padding="'same') 


convt 3 = tf.layers.conv2d transpose (inputs=convt 2, 
filters=1, 
kernel size=(3, 3), 
activation=tf.sigmoid, 
padding="'same') 

output images = tf.image.resize images (convt 3, (X train.shape[1]， 





train.shape[2]), 
method=tf.image.ResizeMethod.BICUBIC) 


在 以 下 代码 段 中 定义 了 损失 函数 和 Adam 优化 器 : 
import tensorflow as tf 
with graph.as default (): 


# Loss 
loss = tf.nn.12 loss(convt 3 - input images) 





# Training step 
training step = tf.train.AdamOptimizer(0.001) .minimize (loss) 


~ 
二 


ee 


一 旦 定义 了 完整 的 DAG， 我 们 就 可 以 初始 化 会 话 和 所 有 变 








import tensorflow as tf 


session = tf.InteractiveSession (graph=graph) 
tf.global variables initializer() .run() 
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一 且 TensorFlow 初始 化 后 ， 我 们 就 可 以 启动 训练 过 程 了 ， 如 下 所 示 : 








import numpy as np 


for e in range (nb epochs): 
np.random.shuffle (Xx train) 


total loss = 0.0 


code means = [] 
for i in range(0, XxX train.shapel[0] - batch size batch size): 
X = np.expand dims (Xx train[i:i + batch size, :, :], axis=3) .astype 
(np.float32) , n loss, Cc mean = session.run([training step, loss, code mean]， 


feed dict={ 
input images xl: XxX 
}) 
total loss += n loss 
code means.append (c mean) 





print('Epoch {}) Average loss per sample: {} (Code mean: {})'. 
format (e + 1, total loss / float(X train.shape[0]), np.mean 
(code means))) 


代码 段 的 输出 如 下 : 


Epoch 1) Average loss per sample: 11.933397521972656 (Code mean: 
0.5420681238174438) 

Epoch 2) Average loss per sample: 10.294102325439454 (Code mean: 
0.4132006764411926) 

Epoch 3) Average loss per sample: 9.917563934326171 (Code mean: 
0.38105469942092896) 








Epoch 600) Average loss per sample: 0.4635812330245972 (Code mean: 
0.42368677258491516) 





在 训练 过 程 结束 时 ， 每 个 样本 的 平均 损失 约 为 0.46 (考虑 32 像素 x32 像素 的 图 像 )， 
并 且 代 码 的 平均 值 为 0.42。 该 值 表示 编码 相当 密集 ， 因 为 单个 值 应 均匀 分 布 在 〈0,1) 中 。 
因此 ， 平 均值 为 0.5。 在 这 种 情况 下 ， 我 们 对 这 个 数据 不 感 兴 趣 ， 但 我 们 也 会 在 寻找 稀 玻 度 
时 比较 结果 。 


深度 卷 积 自 编 码 器 的 样本 输出 如 图 8-2 所 示 。 
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$ 积 自 编码 器 的 样本 输出 


样本 图 像 增加 到 64 像素 x64 像素 对 重建 质量 有 一 定 影 响 , 但 是 通过 降低 压缩 比 和 增加 
代码 长 度 ， 我 们 可 以 获得 更 好 的 结果 。 




















8.2.2 ”去 噪 自 编码 费 


自 编码 器 的 一 个 非常 有 用 的 应 用 与 它们 找到 低 维 表示 的 能 力 并 不 严格 相关 ， 而 是 依赖 
于 从 输入 到 输出 的 转换 过 程 。 特 别 地 ， 我 们 假设 一 个 以 0 为 中 心 的 数据 集 瑟 和 一 个 噪声 版 
本 ， 其 样本 有 具有 以 下 结构 : 

X= 元 +N(i)， 其 中 (i) ~ N(0, 区 ) 

在 这 种 情况 下 ， 自 编码 器 的 目标 是 去 除 噪声 项 并 恢复 原始 样本 x;。 从 数学 的 角度 来 看 ， 
标准 自 编 码 器 和 去 噪 自 编码 器 之 间 没 有 特别 的 区 别 ， 但 重要 的 是 要 考虑 这 些 模型 的 容量 需 
求 。 由 于 它们 必须 恢复 原始 样本 ， 所 以 在 输入 被 破坏 〈 其 特征 占据 更 大 的 样本 空间 ) 的 情 
况 下 ， 层 的 数量 和 维度 可 能 大 于 标准 自 编 码 器 。 当 然 ， 考 虑 到 复杂 性 ， 没 有 一 些 测试 就 不 
可 能 有 清晰 的 洞察 力 。 因 此 ， 我 强烈 建议 从 较 小 的 模型 开始 并 增加 容量 ， 直 到 最 佳 成 本 函 
数 达到 合适 的 值 。 为 了 增加 噪声 ， 这 是 一 些 可 能 的 策略 。 

。 损坏 每 个 批 次 中 包含 的 样本 《贯穿 整个 周期 )。 

。 使 用 噪声 层 作为 编码 器 的 输入 1 。 

。 使 用 丢失 层 作为 编码 器 的 输入 1《〈 例 如 使 用 椒盐 噪声 )。 在 这 种 情况 下 ， 我 们 可 以 
固定 丢失 的 概率 ， 或 者 可 以 在 预定 间隔 《〈 例 如 〈0.1,0.5)) 中 随机 采样 。 

如 果 假 设 噪声 是 高 斯 噪声 (这 是 最 常见 的 选择 )， 则 可 能 产生 同方 差 和 异 方差 噪声 。 在 
第 一 种 情况 下 ， 方 差 对 于 所 有 分 量 保 持 恒 定 ， 即 n(i)~N(0, o2D， 而 在 后 一 种 情况 下 ， 每 个 
分 量 都 有 其 自己 的 方差 。 在 没有 限制 的 时 候 ， 我 们 总 是 优选 采用 异 方差 噪声 ， 以 增加 系统 
的 整体 鲁 棒 性 。 
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向 深度 卷 积 自 编码 器 中 添加 噪声 




















在 此 示例 中 ,我们 将 修改 以 前 开发 的 深度 卷 积 自 编码 器 ， 以 便 管 理 噪声 输入 样本 。DAG 











几乎 相同 ， 不 同 之 处 在 于 我 们 需要 同时 输入 噪声 图 像 和 原始 图 像 : 
import tensorflow as tf 


with graph.as default (): 
input images xl = tf.placeholder (tf.float32, 
shape= (None, X train.shape[1]， 
X train.shape[2], 1)) 
input noisy images _ xl = tf.placeholder (tf.float32, 
shape= (None, X train.shapel[l1], 





xX train.shape[2], 1)) 
input images = tf.image.resize images (input images xl, (width, heignt), 


method=tf.image.ResizeMethod.BICUBIC) 


input noisy images = tf.image.resize images (input noisy images xl, 














(width, height), 
method=tf.image.ResizeMethod.BICUBIC) 





# Encoder 

conv 0 = tf.layers.conv2d(inputs=input noisy images, 
filters=16, 
kernel size=(3, 3), 
strides=(2, 2), 
activation=tf.nn.relu, 


padding="'same') 





当然 ， 损 失 函 数 是 通过 考虑 原始 图 像 来 计算 的 : 





loss = tt.nn.12 loss(convt 3 - input images) 





# Training step 
training step = tf.train.AdamOptimizer(0.001) .minimize (loss) 





在 变量 的 标准 初始 化 之 后 ， 我 们 可 以 考虑 增加 噪声 n;~ N(0, 0.45)〔 即 ow0.2) 来 开始 
训练 过 程 : 
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import numpy as np 


for e in range (nb epochs): 
np.random.shuffle (Xx train) 


total loss = 0.0 


code means = [] 
for i in range(0, XxX train.shape[0] - batch size batch size) : 
X = np.expand dims (X train[i:i + batch size, :, :], 


axis=3) .astype (np.float32) 
Xn = np.clip(X + np.random.normal (0.0, 0.2, size=(batch size, 
X train.shape[1], XxX train.shape[2], 1)), 0.0, 1.0) 


_, nloss, c mean = session.run([training step, loss, code mean], 
feed dict={ 
input images xl: XxX, 
input noisy images xl: Xn 





}) 
total loss += n loss 
code means.append (c mean) 


print('Epoch {}) Average loss per sample: {} (Code mean: {})'" 
format (e + 1, total loss / float(xX train.shape[0]), np.mean(code means))) 























一 旦 模型 经 过 训练 ， 就 可 以 用 一 些 有 了 骂 声 的 样本 进行 测试 ， 去 品 结 果 如 图 8-3 所 示 。 


es E 2 a 
“和 加 









9 


如 你 所 见 ， 即 使 输入 图 像 已 经 完全 损坏 ， 但 自 编码 器 已 成 功 学 习 如 何 去 品 。 我 建议 你 








于 像 〈 上 ) 和 去 噪 图 像 (下 ) 























使 用 其 他 数据 集 测试 模型 ， 寻 找 允 许 合理 且 较 好 重建 的 最 大 噪声 方差。 
8.2.3 稀 琉 自 编码 如 


标准 自 编码 器 生成 的 代码 通常 很 密集 。 但 是 ， 正 如 在 本 书 第 7 章 中 所 讨论 的 那样 ， 
时 候 ， 我 们 最 好 使 用 超 完备 的 字典 和 稀疏 编码 。 实 现 此 目标 的 主要 策略 是 在 成 本 函数 中 简 
单 地 添加 工 惩罚 (在 代码 层 上 ): 
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C,(X,X,0)=C(X,X,0)+oad El 








x 常 数 决 定 将 达到 的 稀 玻 程度 。 当 然 ， 由 于 Cs 的 最 佳 值 与 原始 值 不 一 致 ， 为 了 达到 相 
同 的 精度 , 通常 需要 更 多 的 代 和 更 长 的 代码 层 。 由 Andrew Ng 提出 的 另 一 种 方法 (在 Sparse 
Autoencoder 一 文中 ) 是 基于 稍微 不 同 的 途径 。 代 码 层 被 认为 是 一 组 独立 的 伯 努 利 随 机 变量 。 
因此 ， 给 定 另 一 组 具有 小 均值 的 伯 努 利 变量 ， 例 如 p,~B(0.05)， 我 们 可 以 尝试 找到 最 佳 代 
码 ， 该 代码 也 最 大 限度 地 减少 了 z; 和 此 类 参考 分 布 之 间 的 Kullback-Leibler 散 度 : 
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因此 ， 新 的 成 本 函数 为 : 
C,(X,X,0)=C(X,X,0) +od Ls, 





























最 终 效果 与 使 用 工 惩罚 所 获得 的 效果 没有 太 大 差别 。 实 际 上 ， 在 这 两 种 情况 下 ， 模 型 
都 被 迫 学 习 次 优 表示 ， 同 时 也 试图 最 小 化 一 个 目标 ， 如 果 单 独 考虑 ， 将 导致 输出 代码 始终 
变 为 空 。 因 此 ， 全 成 本 函数 将 达到 最 小 值 ， 以 保证 模型 的 重建 能 力 和 稀 玻 度 〈 必 须 始终 与 
代码 长 度 平 衡 )。 所 以 一 般 来 说 ， 代 码 越 长 ， 模 型 可 以 实现 的 稀 玻 度 越 大 。 


向 深度 卷 积 自 编码 器 中 添加 稀 琉 约束 


在 此 示例 中 ， 我 们 希望 通过 使 用 Li 惩罚 来 增加 代码 的 稀疏 度 。DAG 和 训练 过 程 与 主 
要 示例 完全 相同 ， 唯 一 的 区 别 是 损失 函数 ， 现 在 变 为 : 






















































































sparsity constraint = 0.01 * tf.reduce sum(tf.norm(code layer, ord=1, 
axis=1)) 
loss = tf.nn.12 loss(convt 3 - input images) + sparsity constraint 


我 们 增加 了 稀 玻 约束 ，cx = 0.01。 因 此 ,我 们 可 以 通过 检查 平均 代码 长 度 来 重新 训练 模 
型 。 该 过 程 的 输出 如 下 : 























Epoch 1) Average loss per sample: 12.785746307373048 (Code mean: 
0.30300647020339966) 
Epoch 2) Average loss per sample: 10.576686706542969 (Code mean: 
0.16661183536052704) 
Epoch 3) Average loss per sample: 10.204148864746093 (Code mean: 
0.15442773699760437) 
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Epoch 600) Average loss per sample: 0.8058895015716553 (Code mean : 
0.028538944199681282) 








正如 你 所 看 到 的 ， 代 码 现在 变 得 非常 稀 琉 ， 最 终 平 均值 约 为 0.03。 这 条 信息 表明 大 多 
数 代码 值 接近 于 0， 并 且 在 解码 图 像 时 只 能 考虑 其 中 的 几 个 值 。 作 为 练习 ， 我 建议 你 分 析 
一 组 选 定 的 图 像 的 代码 ， 尝 试 根据 其 激活 或 停 用 来 理解 其 值 的 语义 。 


8.2.4 变 分 自 编码 喜 


让 我 们 考虑 一 个 从 数据 生成 过 程 pu 中 提取 的 数据 集 X。 变 分 自 编码 器 是 一 种 生成 模 
型 (基于 标准 自 编码 器 的 主要 概念 ), 由 Kingma 和 Welling 提出 (在 Auto-Encoding Variational 
Bayes 中 )， 虽 在 重 现 数据 生成 过 程 。 为 了 实现 这 一 目标 ， 我 们 需要 从 基于 一 组 潜在 变量 = 
和 一 组 可 学 习 参 数 9 的 通用 模型 开始 。 给 定 样本 x;EX， 模 型 的 概率 为 p(x,z;0)。 训 练 过 程 
的 目标 是 找到 似 然 p(x;9) 最 大 化 的 最 优 参 数 ， 这 可 以 通过 边缘 化 整个 联合 概率 来 得 到 : 

p(x¥;0)= [p(x,z;0)dz = | p(x¥|z;0)p(z;0)dz 

前 面 的 表达 式 很 简单 ， 但 不 幸 的 是 ， 它 很 难以 封闭 的 形式 处 理 。 主 要 原因 是 我 们 没 
有 关于 先 验 p(z;0) 的 有 效 信息 。 此 外 ， 即 使 假设 z~N(0, 马 例如 N(0,)， 找 到 有 效 样本 的 
概率 也 非常 小 。 换 名 话说 ， 给 定 一 个 值 z， 我 们 不 太 可 能 生成 实际 属于 pu 的 样本 。 为 了 
坚决 这 个 问题 ， 一 种 变 分 方法 被 提出 ， 我 们 将 简要 介绍 一 下 (前 面 提 到 的 论文 中 有 完整 
的 解释 )。 先 假设 标准 自 编 码 器 的 结构 ， 然 后 我 们 通过 将 编码 器 建 模 为 gq(z|x;0y) 来 引入 代 
里 参数 化 分 布 。 在 这 一 点 上 ， 我 们 可 以 计算 gq(*) 和 实际 条 件 概 率 p(z|x;0) 之 间 的 Kullback- 
Leibler 散 度 : 

















































































































































































































































































































z |xX:0 二 运 a 
Di(q|p)= 2 ,4(z |x;0) log We = Ellog q(z 1x;0,)]-E.llog p(z |x;0)] 


=E.[log gq(z |x;0,)]-E.llog p(x|z;0)—1og p(z;0)+1og p(x;0)] 
当期 望 值 运算 符 在 z 上 工作 时 ， 我 们 可 以 提取 最 后 一 项 并 将 其 移动 到 表达 式 的 左 侧 ， 
从 而 变 为 : 
log p(X;0)— Dri(g|p)=E.[log gq(z |x;0)—1og p(x|z;0)- 1og p(z;0)] 
=E.[log p(x|z;0)— Di (gp(z;0))] 
经 过 另 一 个 简单 的 操作 后 ， 前 面 的 等 式 变 为 : 


log p(X;0)=E.[log p(x|z;0)— Di (gp(z;0)) + Di (ql|p)] 
= ELBOs + Dri(q lp) 
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左 侧 是 模型 下 样本 的 对 数 似 然 ， 而 右 侧 是 非 负 项 (KL 散 度 ) 和 另 一 项 称 为 证 据 下 界 
(Evidence Lower Bound，ELBO) 的 总 和 : 











ELBOs; =-Di (ql p(z2;0)) +E.[log p(x,z;0)] 


正如 我 们 将 讨论 的 那样 ， 使 用 ELBO 比 处 理 公 式 的 剩余 部 分 更 容易 ， 并 且 由 于 KL 散 
度 不 会 产生 负面 影响 ， 因 此 如 果 我 们 最 大 化 ELBO， 我 们 也 最 大 化 对 数 似 然 。 

我 们 先前 定义 了 p(z; 9) = N(0, DD)。 因 此 ， 我 们 可 以 将 g(zlx; 0) 建 模 为 多 元 高 斯 模型 ， 其 
中 两 个 参数 集 〈 均 值 向 量 和 协 方差 矩阵 ) 由 分 裂 概率 编码 器 表示 。 特 别 是 给 定 样本 x， 编 
码 器 现在 必须 同时 输出 均值 向 量 y(z|x; 9y) 和 协 方差 矩阵 (zlx; 91)。 为 简单 起 见 ， 我 们 可 以 
假设 矩阵 是 对 角 线 矩阵 ， 因 此 两 个 分 量具 有 完全 相同 的 结构 。 得 到 的 分 布 是 gq(zlx; 0s) = 
NU 人 Cpc 6) 2(zlx; 9y))。 因 此 ，ELBO 的 第 一 项 是 两 个 高 斯 分 布 之 间 的 负 KL 散 度 : 


Du (N(u(z |x:0), Sz17;0 NGO,D) = 







































































































































































1 元 A a 
F(A 0) H(zZ |x;0,) -log| 2(z17x;0,)|-p) 








在 前 面 的 公式 中 ，p 是 代码 长 度 ， 因 此 它 是 均值 向 量 和 对 角 协 方差 向 量 的 维 数 。 右 侧 
的 表达 式 很 容易 计算 ， 因 为 三 是 对 角 的 《〈 即 该 矩阵 的 迹 是 元 素 的 总 和 ， 行 列 式 是 乘积 )。 然 
而 ， 当 采用 随机 梯度 下 降 (Stochastic Gradient Descent，SGD ) 算法 时 ， 该 公式 的 最 大 化 
虽然 是 正确 的 ， 但 不 是 可 微 的 运算 。 为 了 克服 这 个 问题 ， 建 议 大 家 重新 分 配 分 布 。 

当 一 个 批 次 出 现时 ， 我 们 对 正 态 分 布 进行 采样 ， 获 得 a ~ N(0, D。 使 用 此 值 和 概率 编码 
器 的 输出 可 以 构建 所 需 的 样本 : wzlxz; 0y) + a。Z(z|x; 0y)。 该 表达 式 是 可 微分 的 ， 因 为 a 在 
每 批 次 中 是 恒定 的 (当然 , yzlx; 0y) 和 Azlx; 2) 通过 神经 网 络 进行 参数 化 , 它们 是 可 微分 的 )。 


ELBO 右 侧 的 第 二 项 是 log p(xl|z; 纪 的 期 望 值 。 显 而 易 见 ， 这 样 的 表达 式 与 原始 分 布 和 
重 构 之 间 的 交叉 烂 相对 应 : 


Ellog p(x|3;0,)]=S p(z|7;0,)log p(x¥|3;0)=—H(p(z |x;0), p(x¥|3;0)) 




































































































































































这 是 标准 自 编码 器 的 成 本 函数 ， 我 们 将 在 假设 使 用 伯 努 利 分 布 时 将 其 最 小 化 。 那 么 ， 
公式 如 下 : 











H=-S5 p(x| z;0)log (p(x|z;0)) +( -p(x|z;0)log(1— p(x1z;0)) 
深度 卷 积 变 分 自 编码 器 示例 
在 这 个 例子 中 ,我 们 希望 构建 并 训练 一 个 基于 Olivetti 面部 数据 集 的 深度 卷 积 变 分 自 编 
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码 器 。 该 结构 与 我 们 第 一 个 示例 中 使 用 的 结构 非常 相似 。 编 码 器 具有 以 下 层 。 

。 具有 16 (3x3) 个 滤波 器 、(2x2) 步 幅 、ReLU 激活 和 相同 填充 的 2D 卷 积 。 

。 具有 32 (3x3) 个 滤波 器 、(1x1) 步 幅 、ReLU 激活 和 相同 填充 的 2D 卷 积 。 

。 64 (3x3) 个 滤波 器 、(1x1) 步 幅 、ReLU 激活 和 相同 填充 的 2D 卷 积 。 

。 具有 128 (3x3) 个 滤波 器 、(1x1) 步 幅 、ReLU 激活 和 相同 填充 的 2D 卷 积 。 
解码 器 具有 以 下 转 置 卷 积 。 

。 有 具有 128 (3x3) 个 滤波 器 、(2x2) 步 幅 、ReLU 激活 和 相同 填充 的 2D 转 置 卷 积 。 
。 有 具有 128(3x3) 个 滤波 器 、(2x2) 步 幅 、ReLU 激活 和 相同 填充 的 2D 转 置 卷 积 。 
。 具有 32 (3x3) 个 滤波 器 、(1x1) 步 幅 、ReLU 激活 和 相同 填充 的 2D 转 置 卷 积 。 
。 具有 1 (3x3) 个 滤波 器 、(1x1) 步 幅 、Sigmoid 激活 和 相同 填充 的 2D 转 置 卷 积 。 


噪声 的 产生 完全 由 TensorFlow 管理 ， 这 是 基于 理论 部 分 所 解释 的 技巧 。DAG 的 第 一 
部 分 (包含 图 形 定义 和 编码 器 〉 显 示 在 以 下 代码 段 中 : 
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import tensorflow as tf 


nb epochs = 800 
batch size = 100 
code lengthn = 512 
width = 32 
height = 32 


graph = tf.Graph() 


with graph.as default (): 

input images xl1 = tf.placeholder (tf.float32, 
shape= (batch size, X train.shapel[1], 
XxX train.shape[2], 1)) 

input images = tf.image.resize images (input images xl, (widthn, height), 
method=tf.image.ResizeMethod.BICUBIC) 








# Encoder 

conv 0 = tf.layers.conv2d (inputs=input images, 
filters=16, 
kernel size=(3, 3), 
strides=(2, 2), 


activation=tf.nn.relu, 
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padding="'same') 


conv 1 = tf.layers.conv2d(inputs=conv_0, 
filters=32, 
kernel size=(3, 3), 


activation=tf.nn.relu, 
padding="'same') 

conv 2 = tf.layers.conv2d (inputs=conv 1， 
filters=64, 

kernel size=(3, 3), 
activation=tf.nn.relu, 





padding="'same') 


conv_ 3 = tf.layers.conv2d (inputs=conyv 2, 
filters=128, 
kernel size=(3, 3), 
activation=tf.nn.relu, 
padding="'same') 


DAG 中 定义 代码 层 的 部 分 如 下 : 
import tensorflow as tf 
with graph.as default (): 

# Code layer 


code input = tf.layers.flatten(inputs=conv_ 3) 


code mean = tf.layers.dense (inputs=code input, 
units=width * height) 


code log variance = tf.layers.dense (inputs=code input,units=width * height) 
code std = tf.sqrt(tf.exp (code log variance)) 

DAG 的 解码 器 部 分 如 下 : 

import tensorflow as tf 

with graph.as default (): 
# Decoder 


decoder input = tf.reshape (sampled code, (-1, int(width / 4), 
int (height / 4), 16)) 





convt 0 = tf.layers.conv2d transpose (inputs=decoder input, 
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filters=128, 

kernel size=(3, 3), 
strides=(2, 2), 
activation=tf.nn.relu, 
padding="'same') 


convt 1 = tf.layers.conv2d transpose (inputs=convt 0, 
filters=128, 

kernel size=(3, 3), 

strides=(2, 2), 

activation=tf.nn.relu, 

padding="'same') 

convt 2 = tf.layers.conv2d transpose (inputs=convt 1, 

filters=32, 

kernel size=(3, 3), 


activation=tf.nn.relu, 





padding="'same') 


convt 3 = tf.layers.conv2d transpose (inputs=convt 2, 
filters=1, 
kernel size=(3, 3), 
padding="'same') 


convt output = tf.nn.sigmoid(convt 3) 

output images = tf.image.resize images (convt output, (X train.shapel[ll], 
X train.shape[2])， 
method=tf.image.ResizeMethod.BICUBIC) 


DAG 的 最 后 一 部 分 包含 损失 函数 和 Adam 优化 器 ， 如 下 所 示 : 
import tensorflow as tf 


with graph.as default (): 

# Loss 

reconstruction = 
tf.nn.sigmoid cross entropy with logits (logits=convt 3, 
labels=input images) 


kl divergence = 0.5 * tf.reduce sum( 
tf.square (code mean) + tf.square(code std) - tf.log(le-8 + 
tf.square (code std)) - 1, axis=1) 
loss = tf.reduce suml(tf.reduce sum(reconstruction) + kl divergence) 


# Training step 
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training step = tf.train.adamOptimizer(0.001) .minimize (loss) 
损失 函数 由 以 下 两 部 分 组 成 。 

。 基于 交叉 炉 的 重建 损失 。 

。 代码 分 布 和 参考 正 态 分 布 之 间 的 Kullback-Leibler 散 度 。 


此 时 ， 像 往常 一 样 ， 我 们 可 以 初始 化 会 话 和 所 有 变量 ， 并 开始 800 次 迭代 和 100 个 样 
本 的 训练 过 程 : 











import tensorflow as tf 

import numpy as np 

session = tf.InteractiveSession (graph=graph) 
tf.global variables initializer() .run() 


for e in range (nb epochs): 
np.random.shuffle (Xx train) 


total loss = 0.0 


for i in range(0, XxX train.shape[0] - batch size batch size) : 
xX = np.zeros((batch size, 64, 64, 1), dtype=np.float32) 
X[:v :, :] 


:，:, 0] = xX train[i:i + batch size, 


_,， n loss = session.run([training step, loss], 
feed dict={ 
input images xl: Xx 


}) 


total loss += n loss 


print('Epoch {}) Average loss per sample: 


{}'.format(e + 1, total loss 
/ float(batch size))) 


在 训练 过 程 结 束 时 ， 我 们 可 以 测试 几 个 样本 的 重 构 ， 结 果 如 图 8-4 所 示 。 
uae ee 
回国 吉 加 沁 画 


图 8-4” 变 分 自 编码 器 产生 的 样本 重 构 
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作为 练习 ， 我 建议 读者 修改 DAG， 以 便 接 受 通 用 输入 代码 并 记 
者 ， 可 以 绪 得 训练 样本 的 代码 并 施加 一 些 噪声 ， 以 观察 对 输出 








8.3 ”基于 赫 布 的 主 成 分 


分 析 














在 本 广 中 ， 我 们 将 分 析 两 个 







































































8.3 








经 模型 (Sanger 和 Rubner-Tavan 
主 成 分 分 析 ， 无 须 特征 分 解 协 方差 矩阵 或 执行 
习 (Hebbian Learning ) 的 概念 (更 多 细节 ， 请 
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估 模 型 的 生成 属性 。 或 
E 构 的 影响 。 








网 络 )， 它 们 可 以 执行 
斌 断 的 SVD 。 这 两 个 神经 模型 都 基于 赫 布 学 
参阅 Theoretical Neuroscience 或 者 Mastering 











Machine Learning Algorithms), 这 是 最 早 的 关于 简单 的 

















经 元 动力 学 上 





的 数学 理论 之 











概念 非常 有 趣 ， 特 别 是 在 成 分 分 析 领 域 ， 为 更 好 地 到 
的 快速 概述 都 很 有 帮助 。 证 我 们 考虑 一 个 输入 xE 因 "和 


























点 积 〔 无 偏差 );， 以 产生 标量 输出 y: 














现在 ， 我 们 想象 两 个 











AAA 


经 元 ， 第 




















LE 解 网 络 的 动态 ， 





提供 神经 元 基本 模型 








JE 
y=WX 


个 权 旦 





元 。 赫 布 定 律 指出 ， 当 突 触 前 神经 元 和 突 触 后 神经 元 输出 具有 相同 








都 是 正 数 ) 时 ， 突 触 强度 必须 增加 ， 而 当 符 号 不 同时 ， 它 字 





达 式 如 下 : 








AW=nyx =n(W Xx 





常数 是 学 习 率 。 完 整 的 分 析 超 
些 非常 简单 的 修改 ， 控 制 w 的 生长 ) 









































向 量 WE 握力"。 让 


\ 须 被 削弱 。 这 























三 ! 















































经 元 执行 





一 个 被 称 为 突 触 前 神经 元 ， 另 一 个 被 称 为 突 触 后 神经 








的 值 ( 特 别 是 两 者 
' 概 念 的 数学 表 

















有 可 能 证 明 赫 布 神经 元 (通过 一 
可 以 修改 突 触 权重 ,以便 在 经 过 大 量 的 迭代 后 ， 它 沿 着 











数据 集 了 对 的 第 一 个 主 成 分 对 齐 。 以 这 个 结论 (不 再 证 明 ) 为 起 点 ， 我 们 可 以 介绍 Sanger 网 络 。 





8.3.1 Sanger 网 络 





Sanger 网 络 模型 由 














Linear Feedforward Neural Network 中 ), 为 了 通过 在 线程 序 以 降序 提取 数据 集 卫 的 前 个 主 



































成 分 (相反 ,标准 PCA 需要 整个 数 





























引入 该 定律 是 为 了 解决 标准 赫 布 神经 元 无 限 生 长 的 问题 。 





中 集 的 批 处 

















AW= ny — yw 














过 程 )。 虽 然 有 

















进行 修改 ， 该 定 和 


实际 
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种 基于 SVD 特定 版 本 的 
增 量 算法 ， 但 相 较 而 言 ， 这 些 神经 模型 的 主要 优点 是 它们 能 够 在 不 损失 性 能 的 情况 下 处 理 
单个 样本 。 在 展示 网 络 结构 之 前 ， 有 必要 对 赫 布 定 得 














Sanger 提出 (在 Optimal Unsupervised Learning in a Single-Layer 


























LE 称 为 0ja 定律 : 
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如 果 点 积 wx 为 正 ， 则 Aw 将 通过 逐渐 增加 w 的 幅度 来 更 新 权重 。 因 此 ， 在 大 量 迭 代 之 后 ， 
模型 可 能 会 溢出 。Oja 定律 通过 引入 自动 限制 来 克服 这 个 问题 ， 该 限制 会 迫使 权重 达到 饱 
和 ， 不 影响 神经 元 找到 第 一 主 成 分 方向 的 能 力 。 实 际 上 ， 用 wx 表示 进行 第 次 迭代 后 的 权 
重 向 量 ， 可 以 证 明 以 下 内 容 : 









































2 |w |= 罗 

Sanger 网 络 基 于 Oja 定律 的 修改 版 本 ， 被 定义 为 广义 赫 布 学 习 (Generalized Hebbian 
Learning，GHL)。 假 设 我 们 有 一 个 数据 集 了 包含 m 个 向 量 ，xi;E 针 ”"。 通 用 的 Sanger 网 
络 结构 如 图 8-5 所 示 。 














多 y2 Ym 
M1 Nn 四 国生 | nm 
Wy 
( X1 ) ( X> y a ( Xn ) 





























图 8-5 通用 的 Sanger 网 络 结构 























权重 被 组 织 成 矩阵 ， 丈 = {wy} (wy 是 连接 突 触 前 神经 元 i 与 突 触 后 神经 元 j 的 权重 )， 
此 ， 我 们 可 以 使 用 以 下 公式 计算 输出 的 激活 : 


























到 | 

















Ei 























W 
在 这 种 网 络 中 ， 我 们 对 最 终 权 重 更 感 兴趣 ， 因 为 它们 必须 等 于 前 n 个 主 成 分 。 但 不 
幸 的 是 ， 如 果 我 们 在 没有 任何 修改 的 情况 下 应 用 Oja 定律 ， 所 有 的 神经 元 都 会 找到 相同 
的 分 量 
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(第 一 个 )， 因 此 我 们 必须 采用 不 同 的 策略 。 从 理论 上 讲 ， 我 们 知道 主 成 分 必须 是 
正 交 的 ， 如 果 wi 是 具有 第 一 个 分 量 方向 的 矢量 ， 我 们 可 以 强制 wz 与 wi 正 交 ， 依 此 类 推 ， 
该 方法 基于 Gram-Schmidt 正 交 归 一 化 程序 。 让 我 们 考虑 两 个 向 量 一 一 wi 已 经 收敛 ，w20 
在 没有 任何 干预 的 情况 下 也 会 收敛 到 wi。 我 们 可 以 通过 考虑 wo 在 wi 上 的 投影 来 找到 wo 


的 正 交 分 量 : 
























































Ps (Wo) = Wm) 
1 
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此 时 ， 正 交 分 量 w 等 于 如 下 : 
w, = Wo — PP; (Wo) 
第 三 个 分 量 必须 与 wi 和 w? 正 交 ， 因 此 必须 对 所 有 n 个 单元 重复 该 过 程 ， 直 到 最 终 收 
敛 。 此 外 ， 我 们 现在 使 用 的 是 已 经 融合 的 分 量 ， 即 使 用 的 是 并 行 更 新 的 动态 系统 。 因 此 ， 


我 们 有 必要 将 此 过 程 合 } 
























































到 学 习 规则 中 ， 如 下 所 示 : 


Ai al» x -ny | 
k= 


Pe 




















先前 的 更 新 是 
律 ， 而 剩 下 的 部 


在 矩阵 








Ls 
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给 定 





易 理解 



























































多 式 中 ， 更 新 变 为 以 下 内 容 : 





AW =n(y x -Tril(y y" )W) where yy” 
与 之 前 的 收敛 性 证 明 是 不 同 的 ， 但 























方 阵 的 下 三 角 部 分 。 





Tyil(*) 计 入 





























的 是 ， 第 一 部 分 是 标准 的 赫 布 定 





分 是 正 交 项 ， 它 扩展 到 之 前 的 所 有 单元 。 


=WXxx W! 
































单调 








E 
碟 








递减 的 条 件 下 ， 我 们 可 以 看 到 该 模型 如 何以 降序 收敛 到 前 n 个 主 成 分 : 


这 种 约束 3 
间 保 持 不 变 。 


Sanger 网 络 示例 
让 我 们 考虑 一 个 用 scikit-learn 的 make blobs0 函 数 获 得 的 二 维 以 0 为 中 心 的 数据 集 : 


lm77 =0 


1 0 
































不 难 实现 ， 然 而 ， 通 常 当 % < 1 时 ， 该 入 














import numpy as np 


def 


X, 


zero center (Xd): 
return Xd - np.mean (Xd, axis=0) 





random state=1000) 


Xs 


© = 


eigu, eigyv 


rint('Covariance matrix: 
p 


print ('Eigenvalues: 


zero center (XxX) 


np.cov (Xs.T) 


np.linalg.eig(Q) 


{}'.format (0Q)) 
{}'.format (eigu)) 














make blobs(n samples=500, centers=3, cluster std=[5.0, 





法 也 可 以 达到 收敛 并 且 在 迭代 期 





LQ. Dd 
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print('Eigenvectors: {}'.format (eigv.T)) 


代码 段 的 输出 如 下 : 


Covariance matrix: [[18.14296606 8.15571356] 
[ “8 155713506.22.8701E2390]] 

Eigenvalues: [12.01524122 28.99783723] 

Eigenvectors: [[-0.79948496 0.60068611] 
[-0.60068611 -0.79948496] ] 





























特征 值 分 别 约 为 12 和 29， 表 明 第 一 主 成 分 (对 应 于 转 置 的 特征 向 量 和 矩阵 的 第 一 行 ， 即 





-0.799.0.6)) 比 第 二 主 成 分 短 得 多 。 当 然 ， 在 这 种 情况 下 ， 我 们 已 经 通过 特征 分 解 协 方差 矩阵 
来 计算 主 成 分 , 但 这 仅仅 是 出 于 教学 目的 。Sanger 网 络 将 按 降序 提取 分 量 ， 因 此 ， 我 们 希望 找到 


As 















































第 二 列 作为 第 一 列 ， 第 一 列 作为 权重 矩阵 的 第 二 列 。 让 我 们 从 初始 化 权重 和 训练 常数 开始 : 








import numpy as np 


n components = 2 
learning rate = 0.01 
nb iterations = 5000 
t= 0.0 


W_sanger = np.random.normal (scale=0.5, size=(n components, Xs.shape[1])) 
W_ sanger /= np.linalg.norm(W sanger, axis=1) .reshape((n components, 1)) 


为 了 重 现 该 示例 ， 必 须 将 随机 种 子 设置 为 1000， 即 
np.random.seed(1000)。 





























在 这 种 情况 下 ， 我 们 执行 固定 的 迭代 次 数 〈5000)。 但 是 ， 我 建议 你 修改 这 个 示例 ， 以 















































便 使 用 基于 两 个 后 续 时 间 步 幅 计算 权重 差 的 范 数 〈 例 如 Frobinius) 公差 和 停止 标准 〈 此 方 





























法 可 以 通过 避免 无 用 的 迭代 来 加 速 培训 )。 























Sanger 网 络 的 初始 配置 如 图 8-6 所 示 。 
此 时 ， 我 们 可 以 开始 训练 周期 : 














import numpy as np 


for i in range (nb iterations): 
dw = np.zeros((n components, Xs.shapel[l1])) 
七 += 1.0 
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for ]j in range (Xs.shape[0]): 


Ysj = np.dot (W sanger, Xs[j]) .reshape((n components, 1)) 

QOYd = np tril(np dot (Ys, Yj].T)) 

dw += np.dot (Ysj, Xs[j] .reshape((1, XxX.shapel[1]))) - np.dot(QYgqd, 
W_sanger) 


W sanger += (learning rate / t) * dw 
W sanger /= np.linalg.norm(W sanger, axis=1) .reshape((n components, 1)) 


print('Final weights: {}'.format (W sanger)) 
print('Final covariance matrix: {}'.format (np.cov (np.dot (Xs, 
W_sanger.T) .T))) 


XI 

















-15 -10 5 池 0 5 10 
图 8-6 ”Sanger 网 络 的 初始 配置 
代码 段 的 输出 如 下 : 


Final weights: [[-0.60068611 -0.79948496] 
[-0.79948496 0.60068611]] 
Final covariance matrix: [[ 2.89978372e+01 -2.31873305e-13] 


[-2.31873305e-13 1.20152412e+01]] 








| 





如 你 所 见 ， 最 终 协 方差 矩阵 与 预期 相关 ， 并 且 权 重 已 经 收敛 到 C 的 特征 向 量 。Sanger 
网 络 的 最 终 配 置 《〈 主 成 分 ) 如 图 8-7 所 示 。 
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XI 





Xo 


图 8-7 ”Sanger 网 络 的 最 终 配置 
第 一 个 主 成 分 对 应 于 权重 wo， 它 是 最 大 的 ， 而 wi 是 第 二 个 主 成 分 。 我 建议 你 使 用 更 高 
维 的 数据 集 测 试 网 络 ， 并 根据 协 方差 矩阵 的 SVD 或 特征 分 解 将 性 能 与 标准 算法 进行 比较 。 


8.3.2 Rubner-Tavan 网 络 





























由 Rubner 和 Tavan 提出 了 另 一 个 可 以 执行 PCA 的 神经 网 络 ( 参 见 4 Self-Organizing Network 
for Principal-Components Analysis)。 人 然而 ， 
他 们 的 方法 基于 协 方差 矩阵 的 去 相关 ， 这 是 
PCA 的 最 终结 果 《〈 也 就 是 说 ， 它 就 像 是 采用 
自 下 而 上 的 策略 操作 ， 而 标准 程序 是 自 上 而 
下 的 )。 让 我 们 考虑 一 个 以 0 为 中 心 的 数据 集 
筷 和 一 个 输出 为 yE 因 "向 量 的 网 络 。 因 此 ， 
通过 Rubner-Tavan 网 络 的 结构 如 图 8-8 所 示 ， 
输出 分 布 的 协 方差 矩阵 如 下 : 


> 功 功 > 和 
Hamples | 
Dp ss Dp 


Yi1 Y2 Ym 









































C= 





X1 X2 wa 5 








pa 








8-8 通用 Rubner-Tavan 网 络 的 结构 
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如 你 所 见 ，Rubner-Tavan 网 络 与 Sanger 网 络 的 主要 区 别 在 于 每 次 输出 单元 之 前 存在 求 
和 节点 (第 一 个 除外 )。 这 种 方法 称 为 分 层 横 向 连接 (Hierarchical Lateral Connection )， 
因为 每 个 节点 yi (i > 0) 由 直接 分 量 nj 组成， 总 和 为 所 有 先前 的 加 权 输 出 。 因 此 ， 假 设 符号 
v0 指示 向 量 的 第 i 个 向 量 i， 则 Rubner-Tavan 网 络 的 输出 如 下 所 示 : 


7 = wx? + Sa 
我 们 已 经 证 明 ， 上 其 有 特定 权重 更 新 规则 (我们 将 要 讨论 的 ) 的 该 模型 收敛 于 单个 稳定 
的 固定 点 ， 并 且 输 出 被 迫 变 得 互 不 相关 。 查 看 模型 的 结构 ， 操 作 顺 序 如 下 。 
。 第 一 个 输出 保持 不 变 。 
。 第 二 个 输出 被 迫 与 第 一 个 输出 不 相关 。 
。 第 三 个 输出 被 迫 与 第 一 个 和 第 二 个 输出 不 相关 ， 依 此 类 推 。 
。 最 后 的 输出 被 迫 与 之 前 的 所 有 输出 不 相关 。 
在 多 次 迭代 之 后 ， 每 个 生成 yy;〔 其 中 i 都 变 为 空 ， 并 且 C 成 为 对 角 协 方差 矩阵 。 


此 外 ， 在 上 述 论文 中 ， 作 者 证 明了 特征 值 《 对 应 于 方差 ) 按 降序 排列 ， 因 此 我 们 可 以 通过 
包含 前 疡 行 和 列 的 子 和 矩阵 来 选择 前 疡 个 分 量 。 


Rubner-Tavan 网 络 通过 使 用 两 个 不 同 的 定律 进行 更 新 ， 每 个 定律 对 应 一 个 权重 层 。 使 
3 Oja 定律 更 新 内 部 权重 wy: 








































































































































































































Aw,; ny ( E 记 5】 


这 条 定律 保证 了 在 wy 不 无 限 增长 的 情况 下 提取 主 成 分 。 相 反 ， 外 部 权重 风 使 用 反 幸 
布 定律 更 新 : 



































Avi =—1707 (7® 十 YA 了 ) )vi zk 


前 一 个 公式 的 第 一 项 -myWy 四 负责 相关 性 ,而 第 二 项 类 似 于 Oja 定律 ， 作 为 自 限制 正则 
化 器 , 防止 权重 溢出 。 特 别 是 -mW 项 可 以 被 解释 为 更 新 规则 Aw 的 反馈 信号 , 它 受 由 Avjx 
项 校正 的 实际 输出 影响 。 考 虑 到 Sanger 网 络 的 行为 ， 我 们 很 难 理解 ， 一 旦 输出 被 取消 相关 
性 ， 内 部 权重 wy 就 会 变 成 正 交 的 ， 表 示 马 的 第 一 主 成 分 。 

在 矩阵 形式 中 ， 权 重 wy 可 以 立即 排列 成 万 = {wy} ， 因 此 在 训练 过 程 结束 时 ， 每 列 
都 是 C 的 特征 向 量 〈 按 降序 排列 )。 相 反 ， 对 于 外 部 权重 w， 我 们 需要 再 次 使 用 To 


,二 全 


le 符 : 























































































































异步 社区 好 好 好 你 最 棒 (13574065152) 专 享 请 尊重 版 权 





228 第 8 章 无 监督 神经 网 络 模型 


到 0 0 0 
Vv ee 
1 0 0 
V = TriliyG. 0w i : : 
Vy, ee a 
Vinl Vin2 0 


因此 ， 迭 代 t+1 的 输出 变 为 : 
y=WxX+Vy" 
值得 注意 的 是 ， 这 样 的 网 络 输出 具有 周期 性 。 因 此 ， 一 旦 输入 被 应 用 ， 就 需要 进行 几 
次 迭代 以 便 让 了 稳定 下 来 (理想 情况 下 ， 更 新 必须 持续 到 ||y* yl| 一 0)。 
Rubner-Tavan 网 络 示 例 


在 此 示例 中 , 我 们 将 使 用 Sanger 网 络 示例 中 定义 的 数据 集 ， 以 便 使 用 Rubner-Tavan 网 
络 来 执行 主 成 分 提取 。 为 方便 起 见 ， 让 我 们 重新 计算 特征 分 解 : 
































































































































import numpy as np 


Q = np.cov (Xs.T) 
eigu, eigv = np.linalg.eig(Q) 


print('Eigenvalues: {}'.format (eigu)) 





print('Eigenvectors: {}'.format (eigv.T)) 


代码 段 的 输出 如 下 : 





Eigenvalues: [12.01524122 28.99783723] 
Eigenvectors: [-0.79948496 0.60068611] 
[-0.60068611 -0.799484961] 








我 们 现在 可 以 初始 化 超 参 数 ， 如 下 所 示 : 








n components = 2 
learning rate = 0.0001 
max iterations = 1000 
stabilization cycles = 5 
threshold = 0.00001 





W = np.random.normal(0.0, 0.5, size=(Xs.shapel[ll1l], n components)) 
V = np.tril(np.random.normal (0.0, 0.01, size=(n components, n components))) 
np:fill diagonal (Vy .050) 
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prev W = 


hm 


0 


8.3 


np.zeros((Xs.shapel[l], n components)) 
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因此 ， 我 们 选择 使 用 等 于 0.00001 的 停止 闪 值 《比较 基于 权重 矩阵 的 两 次 连续 计算 的 
Frobenius 范 数 ) 和 最 多 1000 次 和 迭代。 我 们 还 设置 了 5 个 稳定 周期 和 固定 学 习 速 率 1=0.0001。 
现在 可 以 开始 











学 习 过 程 了 ， 如 下 所 示 : 


import numpy as np 











while np.linalg.norm(W - prev W, ord='fro') > threshold and 七 < 


max iterations: 


prev W = W.copy() 
t += 1 


for 


i in range (Xs.shape[0]): 

yp = np.zeros((n components, 1)) 
Xi = np.expand dims (Xs[i], 1) 

y = None 


for in range(stabilization cycles): 
y = np.dot (W.T, xi) + np.dot(V, y_p) 
yp = y.copy() 


dW = np.zeros((Xs.shapel[ll], n components)) 
dV = np.zeros((n components, n components)) 


for 七 in range(n components): 
y2 = np.power (y[t], 2) 











dW[:, t] = np.squeeze((y[t] * xi) + (y2 
dV[t, :] = -np.squeeze((y[t] * y) + (y2 
W += (learning rate * dWw) 
V += (learning rate * dyV) 
V= np.tril(V) 
np.fill diagonal(V, 0.0) 


W /= np.linalg.norm(W, axis=0) .reshape((1， 


print('Final weights: {}'.format (W)) 
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* np.expangd dims (W[:, 


* np.expangd dims (VI[It, 


n_ components)) 
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代码 段 的 输出 如 下 所 示 : 





Final weights: [[-0.60814345 -0.80365858] 
[-0.79382715 0.59509065]] 








正如 预期 的 那样 ， 权 重 收敛 于 协 方差 矩阵 的 特征 向 量 。 我 们 同样 还 计算 最 终 的 协 方差 
和 矩阵， 以 便 检查 其 值 ; 















































import numpy as np 
Y comp = np.zeros((Xs.shape[0], n components)) 


for i in range (Xs.shape[0]): 
yp = np.zeros((n components, 1)) 
Xi = np.expand dims (Xs[i], 1) 


for in range(stabilization cycles): 
Y comp[i] = np.squeeze (np.dot (W.T, xi) + np.dot (V.T, y_p)) 
yp = y.copy() 


print('Final covariance matrix: {}'.format (np.cov(Y comp.T))) 


输出 如 下 : 


Final covariance matrix: [[28.9963492 0.31487817] 
[ 0.31487817 12.01606874]] 


、 


同样 ， 最 终 的 协 方 差 矩 阵 是 不 相关 的 《误差 可 忽略 不 计 )。Rubner-Tavan 网 络 通常 
Sanger 网 络 更 快 ， 由 于 反 赫 布 反 馈 加 速 了 融合 ， 因 此 ， 当 采用 这 种 模型 时 ， 它 们 应 该 是 
选 的 。 然 而 为 了 避免 振荡 ， 调 整 学 习 速 率 是 非常 重要 的 ， 我 建议 从 一 个 较 小 的 值 开始 ， 
微 增 加 它 ， 直 到 从 代 次 数 达 到 最 小 值 。 

另外 我 们 也 可 以 从 较 高 的 学 习 速 率 开 始 , 从 而 加 快 初始 校正 速度 , 并 通过 使 用 线性 (如 
Sanger 网 络 ) 或 指数 衰减 来 逐步 降低 学 习 速 率 。 





































































































8.4 无 监督 的 深度 置信 网 络 



































SS 





在 本 节 中 ， 我 们 将 讨论 一 个 非常 著名 的 生成 模型 。 在 无 监督 的 情况 下 ， 我 们 可 以 使 用 
该 模型 来 执行 输入 数据 集 蕊 的 降 维 ， 该 模型 来 自 预定 义 的 数据 生成 过 程 。 由 于 本 书 没 有 特 
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定 的 先决 条 件 且 该 模型 的 数学 复杂 性 很 高 ， 所 以 我 们 将 简要 介绍 概念 ， 不 提供 证 明 过 程 ， 
也 不 会 深入 分 析 算 法 的 结构 。 在 讨论 深度 置信 网 络 之 前 ， 有 必要 引入 另 一 个 模型 ， 即 受 限 
玻 尔 兹 曼 机 (Restricted Boltzmann Machine，RBM)， 它 可 以 被 认为 是 DBN 的 一 个 组 成 
部 分 。 


8.4.1 受 限 玻 尔 兹 曼 机 


RBM 也 被 称 为 Harmonium ,在 Information Processing in Dynamical Systems: Foundations 
of Harmony Theory 中 作为 概率 生成 模型 被 提出 。 换 句 话说 ，RBM 的 目标 是 学 习 未 知 分 布 〈 即 





















































































































































数据 生成 过 程 )， 以 便 生 成 所 有 可 能 的 样本 。 通 用 的 受 限 玻 尔 兹 曼 机 结构 如 图 8-9 所 示 。 
神经 元 x 是 可 观测 的 ( 即 它们 表示 由 六 SS .和 

RBM 必须 学 习 的 过 程 所 生成 的 向 量 ), 而 万 ; 

是 隐藏 的 ( 即 它们 被 隐藏 并 且 有 助 于 x 假定 

的 值 )。 由 于 同一 层 的 神经 元 之 间 没 有 连接 

( 即 描述 网 络 的 图 是 独立 的 ), 因此 在 没有 任 ”@@® 2 册 人 

何 进一步 细节 的 情况 下 , 我 们 需要 说 明 这 个 

模型 具有 马尔 可 夫 随机 场 (Markov Random 图 8-9 通用 的 受 限 玻 尔 效 曼 机 结构 



























































Field，MRF) 的 结构 。MREF 的 一 个 重要 特性 是 可 以 用 Gibbs 分 布 模拟 完整 的 联合 概率 p(x, h; 0): 





p(x,h;0)= 2 
指数 E(x, h, 0) 起 到 物理 系统 能 量 的 作用 ， 在 本 示例 中 ， 它 等 于 以 下 内 容 : 


E(T,h)=—)>, > wwh,— > bx— Ych,ando={w,b,c} 
i J i 





























该 公式 的 主要 假设 是 所 有 神经 元 都 是 伯 努 利 分 布 的 ( 即 xshy~B (0,1)),， 而 bi 和 oj 
是 可 观测 单位 和 潜在 单位 的 偏差 。 在 给 定数 据 生成 过 程 py 的 情况 下 ,必须 优化 RBM 以 
使 得 似 然 p(x; 0) 最 大 化 。 跳 过 所 有 中 间 步 又 〈( 可 以 在 上 述 论 文中 找到 )， 我 们 可 以 证 明 以 
下 内 容 : 









































万 (元 =1|D)=0(5, wh, +B) 
ph =1|7)=0 (Dw, +5) 


在 前 面 的 公式 中 ，c(9) 是 Sigmoid 函数 。 给 定 这 两 个 表达 式 ， 我 们 就 可 以 得 出 (省 略 操 
作 ) 对 数 似 然 相对 于 所 有 可 学 习 变 量 的 梯度 : 
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VL(O;x)=p(h) =1|7)% — p(x;0)p(h, =1|7)%, 
ViL(B:R) = 5, pr:O, 


Vi L(O;7) =p(h,=1 









































x)— >, p(x;0)p(h,=1|7) 











很 容易 理解 所 有 梯度 的 第 一 项 都 非常 容易 计生 




















值 求 和 。 这 显然 是 一 个 无 法 以 封闭 的 形式 解决 的 难题 。 出 于 这 个 原 
Guide to Training Restricted Boltzmann Machines 中 ) 提出 了 一 种 称 
Divergence) 的 算法 ， 此 算法 可 用 于 找到 近似 解 。 对 这 种 算法 的 解释 需要 了 解 马 尔 可 夫 链 
的 知识 《这 不 是 先决 条 件 )， 但 是 我 们 可 以 总 结 出 这 种 策略 ， 即 它 通过 有 限 〈 和 人 少量) 的 采 












































































































































常 有 效 地 训练 RBM， 并 使 深度 置信 网 络 易于 使 用 且 极 其 有 效 。 








8.4.2 ”深度 置信 网 络 


DBN 是 基于 RBM 的 堆 堆 模型 。 
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式 。 实 际 上 ， 当 潜在 单元 的 数量 小 于 输入 单 
氏 维 子 
空间 对 分 布 进行 编码 .Hinton 和 Osindero( 在 
Fast Learning Algorithm for Deep Belief Nets 

















元 的 数量 时 , 模型 将 学 习 如 何 使 用 较 





























中 ) 提出 了 一 种 循序 渐进 的 训练 程序 (是 通 























常 实现 )。 每 对 层 被 视 为 一 个 RBM 3 











RBM ,隐藏 层 就 成 为 后 续 RBM 的 可 观测 





1 








且 通 过 
使 用 对 比 发 散 算 法 来 训练 。 一 旦 训练 了 












































并 且 该 过 程 一 直 持 续 到 最 后 一 层 。 因 此 ， 








2 
到 


DBN 开发 了 一 系列 内 部 表示 《〈 这 就 是 为 什 
么 它 被 定义 为 深度 网 络 )， 其 中 每 个 级 别 都 























在 较 低 级 别 的 功能 上 进行 训练 。 




















不 可 能 使 用 卷 积 单位 )。 而 且 ， 输 出 





























， 而 第 二 项 都 需要 对 所 有 可 能 的 可 观测 


因 ，Hinton (在 4 Practical 
为 对 比 发 散 〈Contrastive 


























样 步骤 计算 梯度 的 近似 值 (一 般 来 说 ， 一 个 步骤 就 足以 获得 良好 的 结果 )。 这 种 方法 可 以 非 





的 DBN 结构 如 图 8-10 所 示 。 

一 层 包含 可 见 单元 , 而 其 余 所 有 单元 都 py 人 
是 潜在 单元 。 在 无 监督 场景 中 ,我 们 的 目标 
是 学 习 未 知 分 布 ， 找 出 样本 的 内 部 表示 形 


国 国人 @ 
his 四 hms 
放生 到 汪 
hi hs ... (hm2 
| 
hi wD 





























图 8-10 通用 的 DBN 结 松 


该 过 程 与 变 分 自 编码 器 没有 什么 不 同 ， 但 在 这 种 情况 下 ， 模 型 的 结构 更 加 严格 例如 











不 是 输入 的 重建 ， 而 是 内 部 表示 。 因 此 ， 考 虑 到 8.4.1 
节 中 讨论 的 公式 ， 如 果 有 必要 反 转 过 程 〈 即 给 定 内 部 表示 ， 获 得 输入 )， 则 必须 应 用 以 下 公 
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式 ， 从 最 顶层 进行 采样 : 





pG-1D-a| Dw +B | 


当然 ， 我们 必须 向 后 重复 该 过 程 ， 直 到 达到 实际 的 输入 层 为 止 。 DBN 非常 强大 《例如 
在 天 体 物理 学 领域 的 几 个 科学 应 用 ), 它们 的 结构 不 像 其 他 更 新 的 模型 那样 灵活 ， 且 复杂 性 
通常 更 高 ， 因 此 我 总 是 建议 从 较 小 的 模型 开始 ， 只 有 在 最 终 精度 不 足以 满足 特定 目的 时 才 
增加 层 数 或 神经 元 数量 。 


8.4.3 无 监督 DBN 示例 


在 本 例 中 ， 我 们 要 使 用 DBN 来 查找 MNIST 数据 集 的 低 维 表示 。 由 于 这 些 模型 的 复杂 
度 很 容易 增加 ， 我 们 将 过 程 限制 为 500 个 随机 样本 。 该 实现 基于 深度 置信 和 网络 包 ， 它 同时 
支持 NumPy 和 TensorFlow。 在 前 一 种 情况 下 ， 我们 必须 从 dbn 包 导 入 类 (名 称 保持 不 变 )， 
而 在 后 一 种 情况 中 ， 包 是 dbn.tensorflow。 在 这 个 例子 中 ， 我 们 将 使 用 NumPy 版 本 ， 该 版 
本 的 要 求 较 少 ， 但 也 建议 读者 尝试 使 用 TensorFlow 版 本 。 


让 我 们 从 加 载 和 规范 化 数据 集 开 始 ， 如 下 所 示 : 












































































































































































































































import numpy as np 


from sklearn.datasets import load digits 


from sklearn.utils import shuffle 
nb_ samples = 500 
digits = load digits() 


X train = digits['data'] / np.max (digits['data']) 
Y train = digits['target'] 


x train, Y train = shuffle(X train, Y train, random state=1000) 
X train = X train[0:nb samples] 
Y train = Y train[0:nb samples] 


我 们 现在 可 以 用 以 下 结构 实例 化 UnsupervisedDBN 类 。 
。 64 个 输入 神经 元 (从 数据 集中 隐 式 检测 到 )。 














。 32 个 sigmoid 神经 元 。 
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。 32 个 sigmoid 神经 元 。 
。 16 个 sigmoid 神经 元 。 


因此 ， 最 后 一 个 表示 由 16 个 值 (原始 维度 的 四 分 之 一 ) 组 成 。 我 们 将 学 习 率 设置 为 
n=0.025， 每 批 次 设置 16 个 样本 〈 当 然 ， 为 了 尽量 减少 重建 误差 ， 请 你 检查 其 他 配置 )。 以 
下 代码 段 初始 化 并 训练 模型 ; 







































































from dbn import UnsupervisedDBN 





unsupervised dbn = UnsupervisedDBN (hidden layers structure=[32, 32, 16], 
learning rate rbm=0.025, 
n _ epochs rbm=500, 
batch size=16, 


activation function='sigmoid') 


XxX dbn = unsupervised dbn.fit transform(X train) 








在 训练 过 程 结束 时 ， 我 们 可 以 在 将 其 投影 到 二 维 空间 之 后 分 析 其 分 布 。 通 常 ， 我 们 将 
采用 t-SNE 算法 ， 该 算法 可 以 保证 找到 最 相似 的 低 维 分 布 : 





























from sklearn.manifold import TSNE 








tsne = TSNE (n components=2, perplexity=10, random state=1000) 





xX tsne = tsne.fit transform(X dbn) 











无 监督 DBN 输出 表示 的 t-SNE 图 如 图 8-11 所 示 。 


如 你 所 见 ， 大 多 数 块 都 有 很 强 的 内 聚 性 ， 这 表明 数字 的 特殊 属性 已 成 功 表示 在 低 维 空 
间 中 。 在 某 些 情况 下 ， 同 一 个 数字 组 被 分 成 更 多 的 聚 类 ， 但 一 般 来 说 ， 噪 声 〈 隔 离 ) 点 的 
数量 非常 少 。 例 如 包含 数字 2 的 组 用 符号 x 表 示 。 大 多 数 样本 的 范围 为 0< xo < 30,xl < -40， 
但 一 个 子 组 位 于 -10 < xi < 10 的 范围 内 。 如 果 我 们 检查 这 个 小 聚 类 的 邻 域 ， 它 们 是 由 代表 
数字 8 的 样本 组 成 的 〈 用 正方 形 表示 )。 很 容易 理解 ， 一 些 格式 错误 的 二 进 制 与 格式 错误 的 
八进制 非常 类 似 ， 这 证 明了 原始 聚 类 的 分 裂 是 正确 的 。 从 统计 学 角度 来 看 ， 解 释 的 方差 可 
能 会 产生 不 同 的 影响 。 在 某 些 情况 下 ， 一 些 分 量 足 以 确定 一 个 类 的 特殊 功能 ， 但 这 通常 是 
不 可 能 的 。 当 属于 不 同类 别 的 样本 显示 出 相似 性 时 , 我 们 只 能 通过 次 成 分 的 差异 进行 区 分 。 
在 处 理 包含 几乎 (或 甚至 部 分 ) 重 全 的 样本 的 数据 集 时 ， 这 种 考虑 非常 重要 。 在 进行 降 维 
时 ， 数 据 科 学 家 的 主要 任务 不 是 检查 整体 解释 的 方差 ， 而 是 要 了 解 是 否 存 在 受降 维 负 面 影 
响 的 区 域 。 在 这 种 情况 下 ， 我 们 可 以 定义 多 个 检测 规则 (例如 当 样 本 x;E Ri 或 xiE Ra 一 xi， 
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其 有 yj 标签 时 ) 或 者 尝试 避免 创建 此 分 段 的 模型 (建议 你 测试 更 复杂 的 DBN 和 更 高 维度 
的 输出 表示 )。 
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8-11 无 监督 DBN 输出 表示 的 tSNE 图 











8.5 总 结 





在 本 章 中 ， 我 们 讨论 了 一 些 用 于 解决 无 监督 任务 非常 常见 的 神经 模型 。 自 编码 器 允许 
你 碍 找 数 据 集 的 低 维 表 示 形 式 ， 而 不 会 对 其 复杂 性 进行 特定 限制 。 特 别 地 ， 深 度 卷 积 网 络 
的 使 用 有 助 于 检测 和 学 习 高 层次 和 低层 次 的 几何 特征 , 当 内 部 代码 也 比 原始 维度 短 得 多 时 ， 
这 可 以 使 重建 非常 精确 。 我 们 还 讨论 了 如 何 为 自 编码 器 添加 稀疏 性 ， 以 及 如 何 使 用 这 些 模 
型 对 样本 进行 降 噪 。 标 准 自 编码 器 的 一 个 略 有 不 同 的 变 体 是 变 分 自 编码 器 ， 它 是 一 种 生成 
模型 ， 可 以 提高 学 习 数 据 生 成 过 程 的 能 力 ， 从 而 绘制 数据 集 。 

Sanger 和 Rubner-Tavan 网 络 是 神经 模型 ， 能 够 在 不 进行 任何 统计 预 处 理 的 情况 下 提取 
数据 集 的 前 个 主 成 分 。 它 们 还 具有 以 在 线 方式 自然 工作 的 优势 (而 标准 PCA 通常 需要 整 
个 数据 集 ， 即 使 存在 性 能 稍 差 于 离线 算法 的 增 量 变 体 )， 以 及 按 降序 提取 分 量 的 优势 。 我 们 
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讨论 的 最 后 一 个 模型 





特性 ， 然 后 分 析 了 这 些 模型 如 何 学 习 数 据 生成 过 程 
在 第 9 章 中 ， 我 们 将 讨论 其 他 神经 模型 











4 是 无 监督 环境 





























学 习 输入 分 布 并 生成 从 中 抽取 的 新 样本 ， 而 后 者 则 
它们 以 接受 特定 的 输入 模式 。 


8.6 


1 . 


2; 
所 有 信息 





ee 
4. 如 果 std(z)=0.03， 代 码 稀 下 C 
5.，Sanger 网 络 需要 协 方差 和 
6. 我 们 如 何 确定 Rubner-Tavan 网 络 
定 一 个 随机 向 量 ，h&e 罗 ” 


7. 


问题 











在 自 编码 器 中 ， 


民 据 自 乡 
。 正 确 吗 ? 
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应 输入 样本 ? 


i 码 器 生成 的 代码 ， 


编码 器 和 解码 器 必须 在 结构 上 对 称 。 


Pp 的 DBN。 我 们 描述 








了 它们 的 构建 

















块 一 一 RBM 的 生成 





9 内 部 〈 通 常 是 低 维 





! 一 一 生成 式 对 抗 网 络 和 自 组 织 映射 。 





基于 大 脑 某 些 特定 





正确 吗 ? 








吗 ? 














Cm 
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二 少 仁 


它 稀 


阵列 作为 输入 向 量 。 
提取 的 每 个 分 量 的 重要 性 
是 DBN 的 输出 维 








变换 也 








琉 吗 ? 


正确 吗 ? 





? 





可 以 在 了 中 找到 了 关中 包 


) 表示 。 
前 者 可 以 


区 域 的 功能 ， 并 训练 





含 的 











数 )， 是 否 五 


以 确定 最 可 和 
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必 史 全 间 轴 央 加 加 辐 吉 习 吉 久 寺 加 浊 疾 移送 隐 用 吉 




















在 这 一 章 中 , 我 们 再 讨论 一 些 非常 流行 的 神经 模型 ， 就 将 结束 无 监督 学 习 的 整个 过 程 ， 












































这 些 模型 可 用 于 执行 数据 生成 过 程 并 可 从 中 抽取 新 的 样本 。 此 外 ， 我 们 将 分 析 自 组 织 映 射 
的 功能 ， 这 些 功 能 可 以 调整 样本 的 结构 ， 使 特定 单元 对 不 同 的 输入 模式 做 出 响应 。 


9.1 












































本 章 将 着 重 讨论 以 下 主题 。 
。 生成 式 对 抗 网 络 (Generative Adversarial Networks，GAN )。 





。 深度 卷 积 GAN (Deep Convolutional GAN, DCGAN)。 
e Wasserstein GAN (WGAN), 
。 自 组 织 映 射 (Self-Organizing Maps，SOM)。 








技术 要 求 
本 章 中 的 代码 需求 如 下 。 
。 Python 3.5+ (强烈 建议 使 用 Anaconda 的 发 行 版 本 )。 
总 





m SciPy 0.19+。 
@ NumPy 1.10+。 
m scikit-learn 0.20+。 


m pandas 0.22+。 
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m Matplotlib 2.0+。 
m seaborn 0.9+。 
m TensorFlow 1.5+。 
sm Keras 2+《〈《 仅 用 于 数据 集 实用 程序 功能 
示例 代码 可 以 在 本 书 配套 的 代码 包 中 找到 。 


9.2 ”生成 式 对 抗 网 络 
































这 些 生 成 模型 是 由 Goodfellow 和 其 他 研究 人 员 提 出 的 (参见 Generative Adversarial 
Networks )， 目 的 是 利用 对 抗 训 练 的 力量 ， 以 及 深度 神经 网 络 的 灵活 性 。 在 不 需要 太 多 技术 
细节 的 情况 下 , 我 们 可 以 引入 对 抗 训练 的 概念 , 将 其 作为 一 种 基于 博弈 论 的 技术 进行 介绍 ， 
的 是 优化 两 个 相互 对 抗 的 代理 。 当 一 个 代理 试图 欺骗 其 对 手 时 ， 男 一 个 代理 必须 学 习 
如 何 区 分 正确 的 和 伪造 的 输入 。 特 别 地 ，GAN 是 一 个 分 为 两 个 明确 定义 组 件 的 模型 。 

。 生成 器 。 
。 鉴别 器 〈 也 称 为 评价 器 )。 
让 我 们 首先 假设 有 一 个 数据 生成 过 程 pa 和 一 个 从 中 抽取 的 m 个 样本 的 数据 集 六 : 
了 X=, 石 ,…, 大 } ,其 中 区 eR” 
为 简单 起 见 ， 假 设 数 据 集 具 有 单个 维度 。 但 是 ， 这 不 是 约束 也 不 是 限制 。 生 成 器 是 
一 个 参数 化 函数 (通常 使 用 神经 网 络 )， 它 由 一 个 噪声 样本 输入 ， 并 提供 n 维 向 量 作 为 


CH 


输出 : 
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六 = 8(5;0,), 其 中 访 eR” 且 z ~LCLD 


换 名 话说， 生成 器 是 在 样本 xE 界 "上 将 均匀 分 布 转换 为 另 一 个 分 布 p(x)。GAN 的 主 
要 目标 如 下 : 





Ps(X) > Paaal™) 
自 编码 器 是 通过 直接 训练 整个 模型 来 实现 这 样 的 目标 的 ， 与 其 相反 ， 在 GAN 0 
过 生成 器 和 鉴别 器 之 间 进 行 的 博弈 来 实现 目标 的 ， 且 后 者 是 另 一 个 参数 化 函数 ， 其 采用 样 
本 xiE 多 "， 并 返回 概率 : 
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p;=4d(T;0,), 其 中 eR” 且 Ps(0.D 
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鉴别 器 的 作用 是 区 分 从 pawa 返 回 大 概率 ) 和 g 〈230。)〈 返 回 小 概率 ) 生成 的 样本 。 
然而 ， 由 于 生成 器 的 目标 是 增强 重 现 pgs 的 能 力 ， 因 此 它 的 作用 是 学 习 如 何 使 用 从 几乎 完 
美的 数据 生成 过 程 中 再 现 的 样本 来 欺骗 鉴别 器 。 而 鉴别 器 的 目标 是 最 大 化 以 下 条 件 : 


log(d (x;0, if H ~ pa 
log(l ~—d(g(z; 0, ); 0, ) otherwise 




































































然而 ， 这 是 一 个 极 小 极 大 游戏 (Minimax Game)， 这 意味 着 两 个 对 手 4 和 B， 必 须 尝 
试 最 小 化 “4) 和 最 大 化 (8B) 同样 的 目标 。 在 这 种 情况 下 ， 生 成 器 的 目标 是 最 小 化 先前 双 
倍 成 本 函数 的 第 二 项 : 















































log(1 —d(g(z;0,);0,)) 
实际 上 ， 当 两 个 代理 都 成 功 地 优化 了 目标 时 ， 鉴 别 器 将 能 够 区 分 从 paue 和 异常 值 中 
抽取 的 样本 ， 并 且 生 成 器 能 够 输出 属于 Pan 的 合成 样本 。 然 而 ， 必 须 清楚 的 是 ， 我 们 可 
以 通过 使 用 单个 目标 来 表达 问题 ， 并 且 训 练 过 程 的 目标 是 找 出 最 佳 参数 集 0 = {bOx bs}， 
从 而 使 鉴别 器 将 其 最 大 化 ， 同 时 使 生成 器 将 其 最 小 化 。 两 个 代理 必须 同时 进行 优化 ， 但 
在 实践 中 ， 该 过 程 是 交 蔡 的 〈 例 如 生成 器 、 鉴 别 器 、 生 成 器 等 )。 在 更 紧凑 的 形式 中 ， 目 
标 可 以 表示 如 下 : 


V(g,d)=E;,, [log(d(x;0,)]+ E;,, [log(l—d(g(x;0,);0,))] 


因此 ， 我 们 可 以 通过 解决 以 下 问题 使 参数 集 达 到 最 佳 : 


























































































































































































































0, =aremaxs areming V (g,d) 


根据 博弈 论 ， 这 是 一 个 接受 纳什 均衡 (Nash Equilibrium) 点 的 非 合 作 博 弈 。 当 满足 
这 样 的 条 件 时 ， 如 果 我 们 假设 两 个 玩家 都 知道 对 手 的 策略 ， 那 么 他 们 就 没有 理由 改变 自己 
的 策略 了 。 在 GAN 的 情况 中 ， 这 种 条 件 意 味 着 一 旦 达到 均衡 《甚至 只 是 理论 上 的 )， 生 成 
器 就 可 以 继续 输出 样本 ， 并 确保 它们 不 会 被 鉴别 器 错误 分 类 。 同 时 ， 鉴 别 器 没有 理由 改变 
其 策略 ， 因 为 它 可 以 完美 地 区 分 paara 和 任何 其 他 分 布 。 从 动态 的 角度 来 看 ， 两 个 组 件 的 训 
练 速度 是 不 对 称 的 。 虽 然 生 成 器 通常 需要 更 多 次 迭代 ， 但 鉴别 器 可 以 非常 快速 地 收敛 。 然 
而 ,这 种 过 早 收 敛 对 于 整体 性 能 来 说 可 能 是 非常 危险 的 。 事实 上 ， 由 于 鉴别 器 提供 的 反馈 ， 
生成 器 也 达到 了 最 佳 状 态 。 不 幸 的 是 ， 当 梯度 非常 小 时 ， 这 种 贡献 变 得 可 以 忽略 不 计 ， 显 
而 易 见 的 结果 是 生成 器 错失 了 提高 其 输出 更 好 样本 的 能 力 的 机 会 《例如 当 样 本 是 图 像 时 ， 
即使 使 用 复杂 的 体系 结构 ， 其 质量 也 可 能 保持 在 非常 低 的 水 平 )。 这 种 情况 并 不 取决 于 生成 
器 固有 容量 的 不 足 ， 而 是 取 雇 于 一 旦 鉴别 器 收敛 〈 或 非常 接近 )， 生 成 器 开始 应 用 的 有 限 次 
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校正 。 在 实践 中 ， 由 于 没有 有 具体 的 规则 ， 我 们 唯一 有 效 的 建议 是 在 训练 过 程 中 检查 两 个 损 
失 函 数 。 如 果 鉴 别 器 损失 下 降 得 太 快 ， 而 生成 器 的 损失 仍然 很 大 ， 则 我 们 通常 优选 的 是 将 



































更 多 的 生成 器 训练 步骤 与 单个 鉴别 器 步骤 进行 交错 。 
9.2.1 _ GAN 分 析 





























假设 我 们 有 一 个 通过 使 用 数据 集 对 (从 paw) 中 提取 来 进行 适当 训练 的 GAN 。 


























Goodfellow 等 人 证 明 ， 给 定 生 成 器 分 布 ps(x)， 最 佳 鉴别 器 如 下 : 





Pp data (7) 


;> a 
om Paaa(X) + p(X) 








全 局 目标 可 以 通过 使 用 最 佳 鉴别 器 重 写 : 














V(d)= Es:.,,, [log(ds,(x;0)]+E,, [logd — d(x;0,))] 


X~ Paata 














我 们 现在 可 以 展开 前 面 的 表达 式 : 





V(d,)= Es,,, | Paaa(™) | Ce | ps(X) 


Paaa(X) + p(X) 





现在 ， 让 我 们 考虑 分 布 a 和 4b 之 间 的 Kullback-Leibler 散 度 : 


(Di XallD) = Palog ge = be 








Paaa(X) + ps 5] 


考虑 到 前 面 的 表达 式 ， 经 过 一 些 简单 的 操作 后 ， 我 们 很 容易 证 明 以 下 等 式 : 

















1 1 p ata +p 1 Pp ata +p 
7 ae) FOB() -Spa au le 全] palm 1 =DxsCPun | p,) 


2 





因此 , 该 目标 可 以 表示 为 数据 生成 过 程 和 生成 器 分 布 之 间 的 Jensen-Shannon 散 度 。 其 
与 Kullback-Leibler 散 度 的 主要 区 别 在 于 0 三 Djs(paaiallps) 三 log(2)， 并 且 它 是 对 称 的 。 这 种 
E 新 构造 并 不 令 人 惊讶 ， 因 为 GAN 的 真正 目标 是 成 为 可 以 成 功 重 现 paw 的 生成 模型 ， 如 
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9-1 所 示 。 


珊 



































初始 分 布 通常 与 目标 分 布 完全 不 同 。 因 此 ，GAN 必须 将 其 重 造 















































并 将 
重 登 完成 时 ，Jensen-Shannon 散 度 达到 最 小 值 ， 并 且 优 化 完成 。 然 而 ， 正 如 我 们 将 在 下 文 











向 Pdata 转移 。 当 


























中 讨论 的 那样 ， 由 于 Jensen-Shannon 散 度 的 特性 ， 这 个 过 程 并 不 总 是 如 此 平稳 地 运行 ， 并 












































且 GAN 将 会 达到 与 理想 最 终 配 置 相距 其 远 的 次 优 最 小 值 。 
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一 一 Original data generating process 
一 一 Generative model distribution 





Jensen-Shannon divergence reduction 
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图 9-1 GAN 的 目标 是 将 生成 的 模型 分 布 朝 pa 的 方向 移动 ， 以 试图 使 重 琶 最 大 化 
模式 裔 溃 
给 定 概率 分 布 ,最 常 出 现 的 值 (在 离散 情况 下 ) 或 对 应 于 概率 密度 函数 最 大 值 的 值 (在 
连续 情况 下 )， 被 称 为 模式 。 如 果 我 们 考虑 后 一 种 情况 ,PDF 具有 单一 最 大 值 的 分 布 称 为 单 
模 ; 当 有 两 个 局 部 最 大 值 时 ， 它 被 称 为 双 模 ， 依 此 类 推 (通常 ， 当 存在 多 种 模式 时 ， 分 布 
简称 为 多 模 )， 如 图 9-2 所 示 。 
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图 9-2 单 模 ( 左 ) 和 双 模 ( 右 ) 分 布 的 示例 
在 处 理 复杂 数据 集 时 ， 我 们 无 法 轻易 估计 模式 的 数量 。 但 是 ， 我 们 可 以 合理 假设 数据 
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生成 过 程 是 多 模 的 。 有 时 ， 当 样本 基于 共同 结构 时 ， 数 据 集 可 以 存在 一 个 主导 模式 和 几 个 
次 要 模式 。 但 一 般 来 说 ， 如 果 样 本 结构 不 同 ， 那 么 单一 模式 的 概率 非常 低 〈 当 然 ， 如 果 对 







































































同一 基本 元 素 稍 作 修 改 ， 则 可 能 具有 单一 模式 ， 但 这 不 是 需要 考虑 的 有 效 情况 )。 























现在 ,让 我 们 假设 正在 处 理 面 部 图 像 的 多 模 分 布 ( 例 如 我 们 将 在 9.2.2 节 中 讨论 示例 中 




















的 那些 样本 )。 模 式 的 内 容 是 什么 呢 ? 我 们 很 难 准 确 回答 这 个 问题 , 但 很 容易 理解 ， 对 应 于 
最 大 数据 生成 过 程 的 面部 应 包含 数据 集中 最 常见 的 元 素 〈 例 如 如 果 80% 的 人 有 胡子 ， 我 们 

















可 以 合理 地 假设 模式 将 包含 胡子 这 个 元 素 )。 


























我 们 在 使 用 GAN 时 遇 到 的 最 著名 和 最 环 手 的 问题 之 











就 是 模式 








朋 溃 ， 它 涉及 次 优 的 








最 终 配 置 ， 其 中 生成 器 在 某 种 模式 周围 冻结 并 继续 提供 与 输出 相同 类 型 的 样本 。 这 种 情况 
的 原因 非常 难以 分 析 (事实 上 ， 只 有 理论 知识 )， 但 我 们 可 以 理解 为 什么 如 果 我 们 重新 思考 
极 小 极 大 游戏 时 会 发 生 这 种 情况 。 当 我 们 要 训练 两 个 不 同 的 分 量 时 ， 即 使 保证 了 纳什 均衡 ， 
这 种 情况 也 可 能 在 几 次 迭代 之 后 发 生 ， 鉴别 器 对 于 最 常见 的 模式 变 得 非常 有 选择 性 。 当然 ， 























































































































据 生 成 过 程 的 一 小 部 分 区 域 的 状态 。 



























































































































































在 梯度 方面 ， 由 鉴别 器 提供 的 用 于 优化 生成 器 的 信息 很 快 变 得 
样本 不 需要 任何 调整 。 男 一 方面 ， 当 生成 器 开始 避免 所 有 那些 p(x) 不 接近 最 大 值 的 样本 时 ， 
它们 不 会 将 鉴别 器 暴露 给 新 的 、 可 能 有 效 的 样本 ， 因 此 梯度 将 保持 非常 小 ， 直 到 为 零 。 遗 憾 
的 是 ， 现 在 还 没有 可 用 于 避免 该 问题 的 全 局 策略 ， 但 在 本 章 中 ， 我们 将 讨论 为 降低 模式 崩 浊 
(WGAN) 风险 而 提出 的 方法 之 一 。 特 别 地 ， 我 们 将 把 注意 力 集 
局 限 性 上 。 在 菜 些 情 况 下 ， 这 可 能 导致 GAN 在 没有 大 梯度 的 情况 下 达到 次 优 配 置 。 在 本 章 





非常 稀少 ， 因 为 最 常见 的 



























































由 于 生成 器 被 训练 以 欺骗 鉴别 器 ， 实 现 该 目标 的 最 简单 方法 是 简单 地 避免 远离 模式 的 所 有 
样本 。 这 种 行为 增加 了 鉴别 器 的 选择 性 ， 并 创建 了 一 个 反馈 过 程 ， 使 


GAN 陷入 只 存在 数 














Pp 在 Jensen-Shannon 散 度 的 






































中 ， 重 要 的 是 不 熟悉 这 些 模 型 的 读者 必须 意识 到 它们 的 风险 ， 并 且 能 够 在 模式 崩 演 时 识别 它们 。 
在 这 一 点 上 ， 我 们 可 以 使 用 TensorFlow 进行 实际 操作 并 模拟 真实 的 GAN。 
































9.2.2 ”深度 卷 积 GAN 示例 





























我 们 现在 可 以 基于 Unsupervised Representation Learning with Deep Convolutional 





Generative Adversarial Networks 中 提出 的 模型 ， 以 及 Olivetti 





该 数据 集 小 到 可 以 快速 被 训练 。 























让 我 们 首先 加 载 数据 集 并 规范 化 〈-1，1) 中 的 值 ， 如 下 所 示 : 














from sklearn.datasets import fetch olivetti faces 
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用 部 数据 集 来 实现 DCGAN， 
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faces = fetch olivetti faces (shuffle=True, random state=1000) 


faces['images'] 
(2.0 * XxX train) - 1.0 


xX train 


XxX train 


width = X train.shapel[1] 
height = X train.shape[2] 


一 些 面部 样本 如 图 9-3 所 示 。 


9-3 从 Olivetti 面部 数据 集中 采集 的 面部 样 


即使 所 有 面部 的 结构 都 类 似 ,眼睛 (有 和 没有 了 眼镜 )、 鼻 子 和 嘴巴 的 形状 也 会 存在 细微 
差别 。 此 外 ， 有 些 人 留 胡 子 ， i (微笑 、 严 肃 、 盯 着 远离 相机 的 东西 ， 等 等 )。 
因此 ， 我 们 期 望 一 个 多 模 分 布 ， 可 能 具有 对 应 于 平均 面部 结构 的 主 模 式 以 及 对 应 于 具有 特 
re a 


此 时 ， 我 们 可 以 定义 主 常量 ， 如 下 所 示 : 


















































































































































nb samples = 400 

code lengthn = 512 

nb epochs = 500 

batch size = 50 

nb iterations = int (nb samples / batch size) 





我 们 有 400 个 64 像素 x64 像素 的 灰 度 样本 〈 对 应 于 每 个 样本 有 4096 个 分 量 )。 在 这 个 
例子 中 ， 我 们 选择 使 用 具有 512 个 分 量 的 噪声 代码 向 量 ， 对 模型 进行 500 次 迭代 ， 批 次 大 
小 为 50。 这 些 值 不 是 基于 黄金 法 则 ， 因 为 (特别 是 对 于 GAN 而 言 ) 我 们 几乎 不 可 能 知道 
哪个 设置 将 产生 最 佳 结果 。 因 此 ， 像 往常 一 样 ， 我 强烈 建议 在 做 出 决定 之 前 检查 不 同 的 超 
参数 集 。 

当 训 练 过 程 不 太 长 时 ， 我 们 可 以 使 用 一 组 统一 采样 的 超 参 数 来 检查 生成 器 和 鉴别 器 的 
平均 损失 (例如 批 次 大 小 e {20, 50, 100, 200})。 如 果 最 佳 值 存在 于 (50，100〉 中， 那么 一 
个 好 的 策略 是 提取 一 些 随机 值 并 重新 训练 模型 。 我 们 可 以 重复 这 样 的 过 程 ， 直 到 采样 值 之 
间 的 差异 可 以 忽略 不 计 。 当 然 , 考虑 到 这 些 模型 的 复杂 性 , 只 能 使 用 专用 硬件 ( 即 多 个 GPU 
或 TPU ) 才能 进行 全 面 搜索 。 因 此 , 另 一 个 建议 是 从 测试 过 的 配置 开始 (即使 上 下 文 不 同 )， 
并 应 用 小 的 修改 ， 以 便 针 对 特定 任务 优化 它们 。 在 这 个 例子 中 ， 我 们 根据 原始 文件 设置 了 
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F 多 值 ， 但 是 我 建议 读者 在 更 改 后 重新 运行 代码 并 观察 差异 。 
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现在 ， 我 们 可 以 基于 以 下 结构 为 生成 器 定义 DAG 。 
。 具有 1024 (4x4) 个 滤波 器 、(1x1) 步 幅 、 有 效 的 填充 和 线性 输出 的 2D 卷 积 。 


。 批 处 理 规范 化 和 泄漏 ReLU 激活 〈 当 输入 值 为 负 时 更 高 效 。 事 实 上 ， 当 x < 0 时 ， 
标准 ReLU 具有 空 梯度 ， 而 泄漏 ReLU 具有 人 允许 轻微 修改 的 恒定 小 梯度 )。 


。 具有 512 (4x4) 个 滤波 器 、(2x2) 步 幅 、 相 同 的 填充 和 线性 输出 的 2D 卷 积 。 

。 批 处 理 规范 化 和 泄漏 ReLU 激活 。 

。 具有 256 (4x4) 个 滤波 器 、(2x2) 步 幅 、 相 同 的 填充 和 线性 输出 的 2D 卷 积 。 
。 批 处 理 规范 化 和 泄漏 ReLU 激活 。 

。 具有 128 (4x4) 个 滤波 器 、(2x2) 步 幅 、 相 同 的 填充 和 线性 输出 的 2D 卷 积 。 
。 批 处 理 规范 化 和 泄漏 ReLU 激活 。 

。 具有 1 (4x4) 个 滤波 器 、(2x2) 步 幅 、 相 同 的 填充 和 双 曲 正切 输出 的 2D 卷 积 。 
生成 器 的 代码 显示 如 下 : 
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import tensorflow as tf 


def generator(z, is training=True): 
with tf.variable scope('generator'): 
conv 0 = tf.layers.conv2d transpose (inputs=z, 
filters=1024, 
kernel size=(4, 4), 
padding="'valid') 
b conv 0 = tf.layers.batch normalization (inputs=conv_0, 


training=is training) 


conv 1 = 
tf.layers.conv2d transpose (inputs=tf.nn.leaky relu(b conv 0), 
filters=512, 
kernel size=(4, 4), 
strides=(2, 2), 
padding="'same') 


b conv 1 = tf.layers.batch normalization (inputs=conv 1， 


training=is training) 
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9.2 


[让 


conv 2 = 
tf.layers.conv2d transpose (inputs=tf.nn.leaky relu(b conv 1), 
filters=256, 
kernel size=(4, 4), 
strides=(2, 2), 
padding="'same') 


b _ conv 2 = tf.layers.batch normalization (inputs=conyv 2, 


training=is training) 


conv 3 = 
tf.layers.conv2d transpose (inputs=tf.nn.leaky relu(b conv 2), 
filters=128, 
kernel size=(4, 4), 
strides=(2, 2), 
padding="'same') 


b_ conv 3 = tf.layers.batch normalization (inputs=conv_ 3， 


training=is training) 


conv 4 = 
tf.layers.conv2d transpose (inputs=tf.nn.leaky relu(b conv 3), 
filters=1, 
kernel size=(4, 4), 
strides=(2, 2), 
padding="'same') 


return tf.nn.tanh (conv_4) 



































代码 很 简单 ， 但 是 有 必要 阐明 对 变量 范围 上 下 文 的 需求 (通过 命令 tf.variable_scope 

Cgeneratorm) 定 义 )。 由 于 我 们 需要 以 替代 方式 训练 模型 ， 因 此 在 优化 生成 器 时 ， 只 需 更 新 其 

变量 。 因 此 ， 我 们 定义 了 命名 范围 内 的 所 有 层 ， 这 些 层 允 许 强制 优化 器 仅 处 理 所 有 可 训练 

变量 的 子 集 。 
鉴别 器 的 DAG 基于 以 下 对 称 结构 。 

。 具有 128(4x4) 个 滤波 器 、(2x2) 步 幅 、 相 同 的 填充 和 泄漏 的 ReLU 输出 的 2D 

卷 积 。 

。 具有 256 (4x4) 个 滤波 器 、(2x2) 步 幅 、 相 同 的 填充 和 线性 输出 的 2D 卷 积 。 
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二 | 























。 批 处 理 规范 化 和 泄露 的 ReLU 激活 。 
。 具有 512(4x4) 个 滤波 器 、(2x2) 步 幅 、 相 同 的 填充 和 线性 输出 的 2D 卷 积 。 
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让 





。 批 处 理 规范 化 和 泄露 的 ReLU 激活 。 
个 滤波 器 、(2x2) 步 幅 、 相 同 的 填充 和 线性 输出 的 2D 卷 积 。 
。 批 处 理 规范 化 和 泄露 的 ReLU 激活 。 








。 具有 1024 (4x4) 








。 具有 1 (4x4) 个 滤波 器 、(2x2) 步 幅 、 有 效 的 填充 和 线性 
















































































输出 的 2D 卷 积 〈 输 出 预 


计 为 sigmoid， 可 以 表示 概率 ， 但 我 们 将 直接 在 损失 函数 内 部 执行 此 变换 )。 


鉴别 器 的 代码 如 下 : 


import tensorflow 


as tf 





def discriminator (x, is training=True, reuse variables=True): 


with tf.variable scope('discriminator', 


conv 0 = tf.layers.conv2d (inputs=x, 
filters=128, 
kernel size=(4, 


strides= 


(2， 


2)， 


padding="'same') 


reuse=reuse variables): 


4), 


conv 1 = tf.layers.conv2d(inputs=tf.nn.leaky relu(conv 0), 
filters=256, 
kernel size=(4, 


b conv 1 = 


strides= 


(2， 


2)， 


padding="'same') 


4), 


tf.layers.batch normalization (inputs=conv_ 1, 


training=is training) 


conv 2 = tf.layers.conv2d(inputs=tf.nn.leaky relul(b conv 1), 
filters=512, 
kernel size=(4, 


b conv 2 = 


strides= 


(2， 


2)， 


padding="'same') 


4), 


tf.layers.batch normalization (inputs=conv 2, 


training=is training) 


conv 3 = tf.layers.conv2d(inputs=tf.nn.leaky relu(b conv 2), 
filters=1024, 
kernel size=(4, 


strides= 


(2， 


2)， 


padding="'same') 
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b _ conv 3 = tf.layers.batch normalization (inputs=conyv_ 3， 


training=is training) 


conv 4 = tf.layers.conv2d(inputs=tf.nn.leaky relu(b conv 3), 
filters=1, 

kernel size=(4, 4), 

padding="'valid') 


return conv 4 















































此 外 ， 在 这 种 情况 下 ， 我 们 需要 声明 一 个 专用 的 变量 范围 。 但 是 ， 由 于 鉴别 器 用 于 两 
同 的 情况 〈 即 真实 样本 的 评估 和 生成 样本 的 评估 )， 我 们 需要 在 第 二 个 声明 中 要 求 引 
量 。 如 果 没 有 设置 这 样 的 标志 ， 则 每 次 调用 该 函数 都 将 对 应 于 不 同 的 鉴别 器 ， 产 4 
量 集 。 
旦 声明 了 两 个 主 分 量 ， 我 们 就 可 以 初始 化 图 像 并 为 GAN 设置 整个 DAG， 如 下 所 示 : 
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import tensorflow as tf 


graph = tf.Graph() 


with graph.as default (): 
input x = tf.placeholder (tf.float32, shape= (None, width, height, 1)) 
input z = tf.placeholder (tf.float32, shape= (None, code length) ) 
is training = tf.placeholder (tf.bool) 





gen = generator (z=tf.reshape (input z, (-1, 1, 1, code length)), 


is training=is training) 


discr 1 1 = discriminator(x=input x, is training=is training, 
reuse variables=False) 
discr 2 1 = discriminator(x=gen, is training=is training, 


reuse variables=True) 


loss d 1 = tf.reduce meanl 





tf.nn.sigmoid cross entropy with logits (labels=tf.ones like(discr 1 1), 





logits=discr 1 1)) 





loss d 2 = tf.reduce meanl 

tf.nn.sigmoid cross entropy with logits (labels=tf.zeros like(discr 2 1), 
logits=discr 2 1)) 

loss d= loss dl + lossd2 
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loss g = tf.reduce mean( 





tf.nn.sigmoid cross entropy with logits (labels=tf.ones like (discr 2 1), 
logits=discr 2 1)) 


variables g = [variable for variable in tf.trainable variables() if 
variable.name.startswith('generator')] 
variables d = [variable for variable in tf.trainable variables() if 


variable.name.startswith('discriminator')] 


with 
tf.control dependencies (tf.get collection (tf.GraphKeys .UPDATE OPS) ) : 
training step qd = tf.train.AdamOptimizer (0.0001, 








betal=0.5) .minimize (loss=loss d, var list=variables qd) 
training step g = tf.train.AdamOptimizer (0.0005, 
betal=0.5) .minimize (loss=loss g, var list=variables 9g) 





江 


和 一块 包含 占 位 符 的 声明 。 为 了 清楚 起 见 , 虽然 input x 和 input z 的 目的 很 容易 理解 ， 
但 是 is_training 可 能 不 太 明 显 。 此 布尔 标志 的 目标 是 允许 在 生产 阶段 禁用 批 处 理 规范 化 〔 它 
必须 仅 在 训练 阶段 有 效 )。 接 下 来 的 步骤 包括 声明 生成 器 和 两 个 鉴别 器 (它们 在 形式 上 是 相 
同 的 , 因为 变量 是 i 但 是 一 个 用 真实 样本 提供 ， 另 一 个 必须 评估 生成 器 的 输出 )。 然 
后 定义 损失 函数 ， 这 些 函 数 基于 一 种 加 速 计算 并 提高 数值 稳定 性 的 技巧 。 


函数 tf.nn.sigmoid_cross_entropy_with logits() 接 受 logit (这 就 是 为 什么 我 们 没有 直接 将 
sigmoid 转换 应 用 于 鉴别 器 输出 )， 并 允许 我 们 执行 以 下 向 量 计算 ; 
L= —Xiaperl Og(O (Xei)) —(1— Xi ) og(l 一 G(Xion)) 

因此 ， 由 于 函数 loss d_10 是 真实 样本 的 损失 函数 ， 我 们 使 用 运算 符 tfones_like() 将 所 
有 标签 设置 为 等 于 1。 因此 ，sigmoid 交叉 业 的 第 二 项 变 为 空 ， 结 果 如 下 : 
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Dlog(o(x,)) 


batch size 二 


相反 ， 函 数 loss_d_20 恰 好 需要 sigmoid 交叉 焙 的 第 二 项 。 因 此 ， 我 们 将 所 有 标签 设置 
为 0， 以 获得 损失 函数 ; 


dl 一 


























| Ylog(l ~o(x) 


batch size 


相同 的 概念 适用 于 生成 器 损失 函数 。 接 下 来 的 步骤 需要 定义 两 个 Adam 优化 器 。 正 如 
我 们 之 前 解释 的 那样 ， 我 们 需要 隔离 变量 ， 以 便 进行 交 蔡 训练 。 因 此 ， 现 在 函数 minimize() 
都 包含 必须 更 新 的 损失 和 变量 集 。TensorFlow 官方 文档 中 建议 使 用 上 下 文 声 明 tf.control_ 


ad2 一 

































































异步 社区 好 好 好 你 最 棒 (13574065152) 专 享 请 尊重 版 权 





Me 








dependencies(tf get_collection(tf. GraphKeys.UPDATE OPS))， 无 论 何 时 使 用 批 处 理 规范 化 ， 





























目标 是 仅 在 计算 均值 和 方差 之 后 才 允 许 执行 训练 步骤 〈 有 关 此 技术 的 更 多 详细 信息 ， 请 





查看 Accelerating Deep Network Training by Reducing Internal Covariate Shifi )。 














此 时 ， 我 们 可 以 创建 一 个 会 话 并 初始 化 所 有 变量 ， 如 下 所 示 : 

















import tensorflow as tf 


session = tf.InteractiveSession (graph=graph) 
tf.global variables initializer() .run() 











旦 一 切 准 备 就 绕 后 ， 我 们 就 可 以 开始 训练 了 。 以 下 代码 段 显示 了 对 鉴别 器 和 生成 器 











执行 交 蔡 训练 的 代码 : 


import numpy as np 
samples range = np.arange (nb samples) 
for e in range (nb epochs): 

d losses = [] 


g_losses = [] 


for i in range (nb iterations): 





Xi = np.random.choice (samples range, size=batch size) 

X = np.expand dims (X train[Xi], axis=3) 

2 = np.random.uniform(-1.0, 1.0, size=(batch size, 
code lengtn)) .astype (np.float32) 


,dl1loss = session.run([training step d, loss dl], 
feed dict={ 
LNDUt. SX, 
9 
is training: True 
}) 
d losses.append(d loss) 


2 = np.random.uniform(-1.0, 1.0, size=(batch size, 
code lengtn)) .astype (np.float32) 


1 gloss = session.run([training step g, loss gl], 
feed dict={ 
ni ooAb on: dM 
iNnpUt: 2 2 
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is _ training: True 
}) 
g_losses.append(g loss) 





print('Epoch {}) Avg. discriminator loss: {} - Avg. generator loss: 
{} .format(e + 1, np.mean(d losses), np.mean(g losses))) 





在 这 两 个 步骤 中 ， 我 们 为 该 网 络 提供 一 批 真实 图 像 ( 在 生成 器 优化 期 间 不 会 使 用 〉 和 
均匀 采样 的 代码 Z， 其 中 每 个 分 量 为 z;~ U(-1, DJ。 为 了 降低 模式 骨 溃 的 风险 ， 我 们 将 在 每 
次 迭代 开始 时 对 集合 进行 打 乱 。 这 不 是 一 种 健壮 的 方法 ， 但 它 至 少 可 以 保证 避免 可 能 导致 
GAN 处 于 次 优 配置 的 相互 关联 。 


在 训练 过 程 结 束 时 ， 我 们 可 以 生成 一 些 面 部 样本 ， 如 下 所 示 : 


















































import numpy as np 
2 = np.random.uniform(-1.0, 1.0, size=(20, code length)) .astype (np.float32) 


Ys = session.run([gen], 
feed dict={ 
input z: 2, 
is training: False 


}) 


Ys = np.squeeze((Ys[0] + 1.0) * 0.5 * 255.0) .astype (np.uint8) 


DCGAN 生成 的 面部 样本 如 图 9-4 所 示 。 


名 记 加 加 冲 癌 立国 加 省 
SE EEETTlS 


图 9-4 DCGAN 生成 的 面部 样本 


我 们 可 以 看 出 生成 的 样本 质量 非常 高 ， 更 长 的 训练 阶段 效果 会 更 好 (以 及 更 深入 的 超 
参数 搜索 )。GAN 已 成 功 学 习 如 何 使 用 同一 组 属性 生成 新 的 面部 。 表 情 和 视觉 元 素 〈 例 如 
眼睛 形状 、 眼 镜 的 存在 等 ) 都 被 重新 应 用 于 不 同 的 模型 ， 以 便 产 生 从 相同 的 原始 数据 生成 
过 程 中 绘制 的 潜在 面部 。 例 如 第 一 行 的 第 七 个 和 第 八 个 面部 样本 基于 同一 个 人 ， 他 被 修改 
了 杂 些 属性 。 原 始 图 像 如 图 9-5 所 示 。 
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图 9-5 ”对 应 于 Olivetti 号 二 的 原始 图 像 


这 两 个 生成 的 样本 的 嘴 的 结构 都 是 通用 的 ， 但 是 看 第 二 个 样本 ， 我 们 可 以 确认 该 样本 
已 经 从 其 他 样本 中 提取 了 许多 元 素 (鼻子 、 眼 睛 、 前 额 和 朝向 )， 生 成 了 一 张 不 存在 的 人 的 
面部 。 即 使 模型 正常 工作 ， 也 会 出 现 局 部 模式 骨 演 ， 因 为 某 些 面 部 (具有 其 相对 属性 ， 如 
眼镜 〉 比 其 他 面部 更 常见 。 相 反 ， 一 些 女 性 面部 (数据 集中 的 少数 部 分 ) 已 经 与 男性 属性 
合并 生成 样本 ， 如 第 一 行 第 二 个 或 最 后 一 行 第 八 个 样本 。 作 为 练习 ， 我 建议 读者 使 用 不 同 
的 参数 和 其 他 数据 集 (包含 灰 度 和 RGB 图像， 如 Cifar-10 或 STL-10) 重新 训练 模型 。 


































































































































































































本 章 中 此 示例 和 其 他 示例 中 显示 的 图 像 通常 基于 随机 选 
代 , 因此 ,为 了 提高 再 现 性 ,我 建议 将 NumPy 和 TensorFlow 

人) 的 随机 种 子 设置 为 1000。 命令 为 : np.random. seed(1000) 
和 tf.set_ random seed(1000)。 


9.2.3 Wasserstein GAN 











给 定 概率 分 布 p(x), 集合 D, = {x :p(x) > 0} 被 称 为 支持。 如果 两 个 分 布 pc0 和 qgC90) 具 有 
不 相交 的 支持 〈 即 Dn Dy = {名 })， 则 Jensen-Shannon 散 度 等 于 log(2)。 这 意味 着 渐变 为 
空 ， 不 再 进行 任何 校正 。 在 涉及 GAN 的 通用 方案 中 ，ps(x) 和 Pu 完全 重 登 的 可 能 性 极 小 
(但 是 ， 你 可 以 预期 最 小 重 县 )。 因 此 ， 梯 度 非常 小 ， 权 重 的 更 新 也 是 如 此 。 这 样 的 问题 可 
能 会 阻止 训练 过 程 并 将 GAN 陶 入 无 法 逃脱 的 次 优 配置 中 。 出 于 这 个 原因 , Arjovsky、Chintala 
和 Bottou (在 Wasserstein GAN 中 ) 基于 更 可 靠 的 差异 度量 ， 提 出 了 一 个 略 有 不 同 的 模型 ， 
称 为 Wasserstein 距离 〈 或 地 球 移动 距离 ): 

















































































































Dr(CPam | 2。)= in fT ,pe) Eoslle— | 


为 了 理解 前 面 的 公式 ， 有 必要 说 [Ju ps) 是 包含 数据 生成 过 程 和 生成 器 分 布 之 间 所 有 

可 能 的 联合 分 布 的 集合 。 因 此 ，Wasserstein 距离 等 于 范 数 ||x - yl| 的 期 望 值 集合 的 最 小 值 
假设 耦合 (x, y) 是 来 自分 布 j~ 了 (Paw py 的 样本 。 即 使 该 概念 是 直接 的 ， 这样 的 定义 仍 不 是 
非常 直观 。 我 们 可 以 通过 考虑 两 个 二 维 点 来 概括 该 概念 ， 其 中 这 两 个 二 维 点 的 距离 是 两 个 
最 近 点 之 间 的 距离 。 很 明显 ， 该 度量 完全 克服 了 不 相交 的 问题 ， 而 且 也 与 实际 分 布 距 离 成 
比例 。 不 幸 的 是 ， 我 们 没有 使 用 有 限 集 。 因 此 ，Wasserstein 距离 的 计算 效率 非常 低 ， 几 乎 
可 能 在 实际 任务 中 使 用 。 然 而 , Kantorovich-Rubinstein 定理 (由 于 它 超出 了 本 书 的 范围 ， 
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自 组 织 映射 

















因此 未 全 面 分 析 〉 人 允许 我 们 通过 使 用 特殊 支持 函数 ftx) 来 简化 表达 式 : 


Dy (p data 











该 定理 强 
用 以 下 条 件 : 






































考虑 使 用 


Dy (Pa | p,)= maxs 站 


> 








在 这 种 特定 情况 下 ， 鉴 别 器 通常 被 称 为 记 


的 函数 必须 是 L-Lipschitz， 





该 方法 效率 不 高 ， 因 为 它 减 慢 了 学 习 过 程 。 然 而 ， 当 函数 执行 


加 的 主要 约束 是 fx) 必 须 是 


经 网 络 参数 化 的 函数 A,)， 











[f(xw)- fx) <L| 


人 








om A E32 








L-Lipschitz 函数 , 也 就 是 说 给 定 的 非 负 


Pps)= 3 sz 一 及 





常数 工 , 适 





x XY ,x eX 
局 目标 变 为 如 下 : 

已 [f(g(z;0,);0.)]= 
F 价 器 ， 因 此 fx; 90.) 扮演 这 个 角色 。 由 于 这 样 


maxs;_, (W 


OsO. data 


— Wse) 


noise 









































修正 后 剪 切 所 有 变量 0.: 


因此 作者 建议 在 应 
OY =clip(O"Y + QVa Dy,—c,c) 











假设 输出 总 




































































\ 是 受 常数 约束 ， 则 可 以 应 用 Kantorovich-Rubinstein 定理 。 
常 需要 许多 变量 (有 时 数 百 万 或 更 多 )， 因 


此 剪 切 常数 应 保持 非常 小 〈 例 
因此 在 每 次 迭代 期 间 也 需要 





组 有 限 变 量 的 操作 时 ， 
当然 ， 由 于 参数 化 通 

如 0.01)。 此 外 ， 

增加 评价 器 训练 步 





























由 于 剪 切 的 存在 会 影响 评价 器 的 训练 速度 ， 

又 的 数量 〈 例 如 评价 器 为 $ 次 ， 生 成 器 为 1 次 ， 依 此 类 推 )。 
将 DCGAN 转换 为 WGAN 
在 这 个 例子 中 ， 我 们 将 使 用 





Wasserstein 距离 的 DCGAN。 
Zalando 引入 ， 作 为 标准 MNIST 数据 集 的 替代 品 ， 因 为 ; 














它 























类 器 分 离 。 考 虑 到 此 类 网 络 所 需 的 训练 时 间 ， 我 们 决定 ; 
足够 资源 的 读者 可 以 选择 增加 样 


步 包 括 加 载 、 切 片 和 规范 化 数据 集 〈(-1, 1) 中 )， 如 下 所 示 ; 





第 一 





import numpy as np 
from keras.dataset 
nb samples = 5000 

_), (, 


(X train, 


Ee 
X train = X train.astype (np.float32) [0:nb samples] 





本 数量 或 去 掉 此 限制 。 











S import fashion mnist 
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二 少 仁 


该 数据 集 由 60000 个 28 像素 x28 像素 的 衣服 灰 度 图 像 组 


和 过 程 限 制 为 5000 个 样本 ,但 


尊重 





Fashion MNIST 数据 集 (由 Keras 直接 提供 ) 实现 基于 





成 ， 
辫 数 据 集 的 类 太 容易 与 许多 分 
具有 | 


一 、 
































fashion mnist.1load data() 


O50 


看 版 权 


Xtrain = (2.0 * X train) - 1.0 


widthn = XxX train.shapel[1] 


height = X train.shape[2] 

















从 Fashion MNIST 数据 集中 提取 的 样本 ， 如 图 9-6 所 示 。 


< 他 全 | | [一 | 局 


图 9-6 从 Fashion MNIST 数据 自 























中 提取 的 样本 








久 
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我 们 现在 可 以 基于 DCGAN 的 同一 层 定义 生成 器 DAG， 如 下 所 示 。 
个 滤波 器 、(1x1) 步 幅 、 有 效 的 填充 和 线性 输出 的 2D 卷 积 

















。 具有 1024 (4x4) 
。 批 处 理 规范 化 和 阐 






































此 漏 ReLU 激活 。 

















。 具有 512 (4x4) 个 滤波 器 、(2x2) 步 幅 、 














。 批 处 理 规范 化 和 让 



































此 漏 ReLU 激活 。 
































相同 的 填充 和 线性 输出 的 2D 卷 积 








。 具有 256 (4x4) 个 滤波 器 、(2x2) 步 幅 、 相 同 的 填充 和 线性 输出 的 2D 卷 积 。 












































。 批 处 理 规范 化 和 让 














攻 漏 ReLU 激活 。 




















。 具有 128 (4x4) 个 滤波 器 、(2x2) 步 幅 、 相 同 的 填充 和 线性 输出 的 2D 卷 积 。 





































































































。 批 处 理 规范 化 和 泄漏 ReLU 激活 。 
。 具有 1 (4x4) 个 滤波 器 、(2x2) 步 幅 、 相 同 的 填充 和 双 曲 正切 输出 的 2D 卷 积 。 
代码 显示 如 下 : 
import tensorflow as tf 
def generator(z, is training=True) : 
with tf.variable scope('generator'): 
conv 0 = tf.layers.conv2d transpose (inputs=z, 


filters=1024, 
kernel size=(4, 4), 


padding="'valid') 


b_ conv 0 = tf.layers.batch normalization (inputs=conv_0, 


training=is training) 











J 上 > 十 
i 当 


a 
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conv 1 = 
tf.layers.conv2d transpose (inputs=tf.nn.leaky relu(b conv 0), 
filters=512, 
kernel size=(4, 4), 
strides=(2, 2), 
padding="'same') 


b conv 1 = tf.layers.batch normalization (inputs=conv 1， 


training=is training) 


conv 2 = 
tf.layers.conv2d transpose (inputs=tf.nn.leaky relu(b conv 1), 
filters=256, 
kernel size=(4, 4), 
strides=(2, 2), 
padding="'same') 
b conv 2 = tf.layers.batch normalization (inputs=conyv 2, 


training=is training) 


conv 3 = 
tf.layers.conv2d transpose (inputs=tf.nn.leaky relu(b conv 2), 
filters=128, 
kernel size=(4, 4), 
strides=(2, 2), 
padding="'same') 
b _ conv 3 = tf.layers.batch normalization (inputs=conyv_ 3， 


training=is training) 


Conv 4 = 
tf.layers.conv2d transpose (inputs=tf.nn.leaky relu(b conv 3), 
filters=1, 
kernel size=(4, 4), 
strides=(2, 2), 
padding="'same') 
return tf.nn.tanh (conv_ 4) 


评价 器 的 DAG 基于 以 下 层 集 。 
。 具有 128 (4x4) 个 滤波 器 、(2x2) 步 幅 、 相 同 的 填充 和 泄漏 的 ReLU 输出 的 2D 卷 积 。 
。 具有 256 (4x4) 个 滤波 器 、(2x2) 步 幅 、 相 同 的 填充 和 线性 输出 的 2D 卷 积 。 

。 批 处 理 规范 化 和 泄漏 ReLU 激活 。 
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。 具有 512 (4x4) 个 滤波 器 、(2x2) 步 幅 、 相 同 的 填充 和 线性 输出 的 2D 卷 积 。 
































。 批 处 理 规范 化 和 泄漏 ReLU 激活 。 














。 具有 1024 (4x4) 个 滤波 器 、(2x2) 步 幅 、 相 同 的 填充 和 线性 




















。 批 处 理 规范 化 和 泄漏 ReLU 激活 。 

















。 具有 1 (4x4) 个 滤波 器 、(2x2) 步 幅 、 有 效 的 填充 和 线性 输 

















相应 的 代码 如 下 : 


import tensorflow as tf 


def critic(x, is training=True reuse _ Variables=True) : 
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输出 的 2D 卷 积 。 





的 2D 卷 积 。 


with tf.variable scope('critic', reuse=reuse Variables) : 


conv 0 = tf.layers.conv2d (inputs=x, 


filters=128, 
kernel size=(4, 
(2, 2), 
padding="'same') 


strides= 


4), 


conv 1 = tf.layers.conv2d(inputs=tf.nn.leaky relu(conv 0), 
filters=256, 
kernel size=(4, 

(2, 2), 

padding="'same') 


strides= 


4), 


b conv 1 = tf.layers.batch normalization (inputs=conv 1， 


training=is training) 


conv 2 = tf.layers.conv2d(inputs=tf.nn.leaky relul(b conv 1), 
filters=512, 
kernel size=(4, 

(2, 2), 

padding="'same') 


strides= 


4), 


b conv 2 = tf.layers.batch normalization (inputs=conyv 2, 


training=is training) 


conv 3 = tf.layers.conv2d(inputs=tf.nn.leaky relu(b conv 2), 
filters=1024, 
kernel size=(4, 

(2, 2), 

padding="'same') 


strides= 
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b _ conv 3 = tf.layers.batch normalization (inputs=conv_ 3， 
training=is training) 


conv 4 = tf.layers.conv2d(inputs=tf.nn.leaky relu(b conv 3), 
filters=1, 
kernel size=(4, 4), 
padding="'valid') 


return conv 4 





由 于 与 DCGAN 没有 特别 的 差异 ， 因 此 无 须 添加 其 他 注释 。 因 此 ， 我 们 可 以 继续 讨论 
图 像 和 整个 DAG 的 定义 ， 如 下 所 示 : 




















import tensorflow as tf 





nb epochs = 100 

NB Crlitie :S53 

batch size = 64 

nb iterations = int (nb samples / batch size) 
code lengthn = 100 

graph = tf.Graph() 


with graph.as default (): 
input x = tf.placeholder (tf.float32, shape= (None, width, heignt, 1)) 
input z = tf.placeholder (tf.float32, shape= (None, code length) ) 
is training = tf.placeholder (tf.bool) 











gen = generator (z=tf.reshape (input z, (-1, 1, 1, code length)), 
is training=is training) 


r input x = tf.image.resize images (images=input x, size=(64,64), 
method=tf.image.ResizeMethod.BICUBIC) 





crit 1 1 = critic(x=r input x, is training=is training, 
reuse variables=False) 

crit 2 1 = critic(x=gen, is training=is training, 
reuse variables=True) 





上 上 SS: G = tf.-reduce meanlcrit 2 1 = "crit 4.1) 
loss g = tf.reduce mean(-crit 2 1) 
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tf.image.resize images() 调 


器 之 后 《了 








Ss 





variables dg = [variable for 
if variable. 
variables c = [variable for 


if variable. 


with 


tf.control dependencies (tf.get collection(tf.GraphKeys .UPDAT 


二 
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name.startswithn('generator 


name.startswith("' 





optimizer c = tf.train.AdamOptimizer (0.00005, 


beta2=0.9).\ 








variable in tf.trainable variables() 
')] 
variable in tf.trainable variables () 


")] 


E OPS) ) : 
betal=0.5, 


minimize (loss=loss c, var list=variables c) 


with tf.control dependencies ([optimizer c]): 


training step c = tf.tuple(tensors=[ 


tf.clip by value (variable, -0.01, 


for variable in variables c]) 


training step g = tf.train.AdamOptimizer(0.00005, 


beta2=0.9).\ 


var list=variables 9g) 





像 往常 一 样 ， 第 一 步 是 声明 占 位 符 ， 

















积 序列 或 转 置 卷 积 序列 ) 已 针对 64 像素 x64 像素 的 
整 原始 样本 的 大 小 。 



































一 











不 是 直接 最 小 化 评价 器 损失 函数 相反， 我 
我 们 使 用 training step_c 来 剪 切 所 有 评价 变量 
在 使 用 指令 tf.control dependencies([optimizer c]) 定 义 的 情况 中 声明 了 它 。 这 样 ， 
话 计 入 









































tf.assign (variable, 


minimize (loss=loss 9g, 








它 与 DCGAN 相同 。 然 而 ， 





于 模型 














到 像 进行 了 优化 ， 



































常 简单 
介 。 事 实 上 ， 在 这 种 悍 
门 首先 使 用 optimizer c 计 香 
因为 我 们 只 想 调 月 





较 小 的 修 


















































petalL=0.5， 





型 (特别 是 卷 
因此 我 们 将 使 用 方法 
此 操作 将 导致 一 定 的 质量 损失 。 因 此 ， 在 生 
产 应 用 程序 中 ， 我 强烈 建议 你 使 用 针对 原始 输入 维度 优化 的 模型 。 在 声明 了 生成 器 和 评价 
E 如 我 们 在 前 面 的 例子 中 所 讨论 的 ， 我 们 需 
失 函 数 是 单独 优化 的 )， 我 们 可 以 弥补 损失 。 人 它们 非 
我 们 为 此 简化 和 为 该 网 络 能 够 应 月 











要 两 个 实例 共享 相同 的 变量 ， 因 为 损 
计算 速度 快 ， 
4 况 下 ， 我 






































和 应 








梯度 ， 然 


这 个 运算 符 ， 所 以 我 
当 请 求 
只 有 在 结果 准备 就 

















traning_step_c 时 ，TensorFlow 将 注意 首先 运行 optimizer_c， 但 





绪 时 才 会 执行 main 命令 〈 该 操作 简单 地 剪 切 变量 )。 
步 又 对 于 保证 评价 器 仍然 是 L-Lipschitz 函数 是 必要 的 ， 因 
Rubinstein 定理 派生 的 简化 Wasserstein 距离 









































许 使 月 

















完全 定义 图 像 后 ， 我 们 可 以 创建 会 话 3 
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初始 化 所 有 变量 ， 如 下 所 示 : 











里 论 中 所 解释 的 那样 ， 这 
月 从 Kantorovich- 
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import tensorflow as tf 


session = tf.InteractiveSession (graph=graph) 
tf.global variables initializer() .run() 






































现在 ， 所 有 分 量 均 已 设置 好 ， 并 且 我 们 准备 开始 训练 过 程 。 该 过 程 分 为 nb_critic〈 在 
我 们 的 例子 中 为 5 个 ) 评价 训练 步骤 的 迭代 和 生成 器 训练 步骤 的 执行 ， 如 下 所 示 : 











import numpy as np 
samples range = np.arange (X train.shape[0]) 
for e in range (nb epochs): 

c losses = [|] 


g_losses = [] 


for i in range (nb iterations): 


for J in range(nb. eritie): 





Xi = np.random.choice (samples range, size=batch size) 
X = np.expand dims (X train[Xi], axis=3) 


2 = np.random.uniform(-1.0, 1.0, size=(batch size, 
code length) ) .astype (np.float32) 


1 closs = session.run([training step c, loss cl]， 
feed dict={ 
UDUte XX 
DUt 


is training: True 


c_ losses.append(c loss) 


2 = np.random.uniform(-1.0, 1.0, size=(batch size, 
code lengtn)) .astype (np.float32) 


1 gloss = session.run([training step g, loss gl], 
feed dict={ 
TNnDUut xc: 
np.zeros (shape= (batch size, width, height, 1)), 
Tnput DS:. 2 
is training: True 


}) 


g_losses.append(g loss) 
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print('Epoch {}) Avg. critic loss: {} - Avg. generator loss: 
{}'.format(e + 1, 
np.mean(c losses), 


np.mean(g _ losses))) 








在 此 过 程 结束 时 《可 能 会 很 长 ， 特 别 是 在 没有 任何 GPU 文 持 的 情况 下 )， 为 了 获得 视 

















然 





a 


响 图 像 的 质量 。 然 而 ， 有 趣 的 是 ， 生 成 的 样本 就 平均 而 言 要 比 原始 样本 更 复杂 。 例 如 衣服 
的 质地 和 形状 受到 其 他 因素 (例如 包 和 鞋 ) 的 影响 ， 导 致 新 样本 数量 增加 的 模型 不 太 规 律 。 

















有 认 ， 我 们 可 以 再 次 生成 一 些 样本 ， 如 下 所 示 : 








import numpy as np 
2 = np.random.uniform(-1.0, 1.0, size=(30, code length) ) .astype (np.float32) 
Ys = session.run([gen], 
feed dict={ 
Input ZZy 
is training: False 


}) 


Ys = np.squeeze((Ys[0] + 1.0) * 0.5 * 255.0) .astype (np.uint8) 


WGAN 生成 的 样本 如 图 9-7 所 示 。 


国 四 所 图 国 回 图 四 和 于 
图 出 加 本 上 申 辐 回 本 回忆 
图 国内 口 加 图 呈 轿 回归 


图 9-7 WGAN 生成 的 样本 
我 们 可 以 看 出 ，WGAN 已 经 收敛 到 一 个 相当 好 的 最 终 配 置 。 调整 大 小 的 操作 会 严重 影 






















































































































而 ， 因 素 增加 对 图 像 理解 的 影响 与 Olivetti 面部 数据 集 相反 。 在 这 种 情况 下 ,我 们 更 难 
解 样本 是 否 由 异 构 属性 的 混合 组 成 ， 因 为 数据 生成 过 程 ( 例 如 标准 MNIST) 至 少 有 10 种 







































































千 
与 








原始 类 相对 应 的 主 模式 。 
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WGAN 不 会 陷入 模式 骨 溃 ， 但 是 正如 我 们 在 面部 数据 集 观 察 到 的 那样 ,不 同 区 域 的 强 
分 离 会 阻止 模型 轻松 合并 元 素 。 作 为 练习 ， 我 建议 读者 使 用 Olivett 面部 数据 集 重复 此 示例 ， 
找到 最 佳 超 参 数 配 置 ， 并 将 结果 与 标准 DCGAN 实现 的 结果 进行 比较 。 


9.3 ”上 自 组 织 映 射 















































自 组 织 映 射 是 由 Willshaw 和 Von Der Malsburg 首次 提出 的 模型 (参见 How Patterned 
Neural Connections Can Be Set Up by Self-Organization)， 目 的 是 找到 一 种 方法 来 描述 许多 动 
物 大 脑 中 发 生 的 不 同 现象 。 事 实 上 ， 他 们 观察 到 大 脑 的 某 些 区 域 可 以 形成 内 部 组 织 结构 ， 
其 子 组 件 在 特定 输入 模式 下 会 选择 性 接收 信息 《例如 一 些 视觉 皮层 区 域 对 垂直 或 水 平 带 非 
常 敏感 )。SOM 的 核心 思想 可 以 通过 考虑 一 个 由 在 找 出 样本 的 低级 属性 的 聚 类 过 程 来 合成 ， 这 
要 归功 于 它 对 聚 类 的 分 配 。 关 键 在 于 ， 在 SOM 中 ， 单 个 单元 通过 赢 者 通 吃 (Winner-Takes-All) 
的 学 习 过 程 可 以 代表 样本 群体 的 一 部 分 ( 即 数据 生成 过 程 的 区 域 )。 这样 的 训练 过 程 首先 引 
出 所 有 单元 (我们 称 之 为 神经 单元 ) 的 反应 ， 并 通过 减少 最 活跃 区 单元 周围 的 影响 区 域 来 
加 强 所 有 的 权重 和 收益 ， 直 到 某 个 单元 成 为 唯一 对 给 定 输入 模式 作出 响应 的 神经 元 。 


该 合成 过 程 如 图 9-8 所 示 。 













































































































































































Xx2) (Xia 








图 9-8 SOM 开发 的 墨西哥 帆 的 选择 性 
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在 初始 步 又 中 ， 许 多 单元 响应 相同 的 输入 模式 ， 但 我 们 已 经 可 以 观察 到 x; 的 优势 。 然 
而 ， 江 即 选择 该 单元 可 能 导致 过 早 的 收 鳅 ， 从 而 导致 精度 损失 。 这 就 是 获胜 单元 周围 的 半 
径 逐 渐 减 小 的 原因 〈 由 于 形状 特点 ， 我 们 观察 到 一 种 称 为 墨西哥 帽子 (Mexican Hat) 的 现 
象 )。 当 然 , 在 这 一 过 程 中 ,最初 获 胜 的 单元 无 法 保持 稳定 ,所 以 我 们 要 避免 半径 快速 减 小 ， 
防止 其 他 潜在 单元 被 引出 。 当 一 个 神经 元 在 特定 模式 下 保持 最 活跃 状态 时 ， 它 将 逐渐 变 成 
实际 获胜 者 。 因 此 ， 它 会 消耗 所 有 的 力气 ， 因 为 不 再 有 其 他 单元 会 被 强化 。 

一 些 非常 著名 和 有 用 的 SOM 是 Kohonen 映射 (首次 出 现在 Self-Organized Formation of 
Topologically Correct Feature Maps 中 )。 它们 是 在 由 NN 个 神经 元 构成 的 二 维 流 形 (最 典型 的 
情况 是 平坦 的 二 维 区 域 ) 上 投影 的 平面 。 从 现在 开始 ， 为 简单 起 见 ， 我 们 将 考虑 映射 到 包 
含 kxp 个 单位 矩阵 上 的 曲面 ， 每 个 曲面 都 使 用 突 触 权重 wjE 力 "〈 维 度 与 输入 模式 xi;E 完 ” 
相同 ) 建 模 。 因 此 ， 权 重 和 矩阵 变 为 1 人 站 EE 完 *?”“”。 从 实际 的 角度 来 看 ， 在 该 模型 中 ， 由 于 
不 执行 内 部 转换 ， 因 此 神经 元 通过 相应 的 权重 向 量 表示 。 呈 现 模 式 x; 时 ， 使 用 以 下 规则 确 
定 获 胜 神经 元 n,,〈 作 为 元 组 ): 


n,, = argmin 






































































































































































































































































































































wn [Wk, p) -Tl wheren, e{(1,R),01,p)} 


训练 过 程 通 常 分 为 两 个 不 同 的 阶段 : 调整 和 收敛 。 在 调整 阶段 ， 更 新 将 扩展 到 获胜 
单元 的 所 有 邻 域 ， 而 在 收敛 阶段 ， 将 仅 增强 权重 Wnw)。 但 是 ， 平 滑 而 渐进 的 下 降 比 快 
速 下 降 更 可 取 ; 因此 ， 对 于 邻 域 大 小 ms(G7 的 常见 选择 是 基于 具有 指数 衰减 方差 的 径 向 
基 函 数 : 
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20(1) 


nl(i,))=¢ 





he 

初始 方差 (与 最 大 邻 域 成 正比 〉 为 oo， 并且 根 据 时间 常 数 t 呈 指 数 衰减 。 根 据 经 验 ， 
当 !> 委 时 co 罗 =0， 因 此 应 设置 为 等 于 调整 阶段 训练 时 期 数值 的 1/4: rz= 0.25*toy。 一 旦 
定义 了 邻 域 ， 就 可 以 根据 它们 与 每 个 样本 x; 的 差异 度 来 更 新 所 有 成 员 的 权重 : 

Ai 一 n(Dn(i, ))(x, WwW, ) 

在 前 面 的 公式 中 ， 学 习 速率 7( 有 也 是 训练 时 期 的 函数 ， 因 为 最 好 在 早期 (尤其 是 在 调 
整 阶段 ， 施 加 更 大 的 灵活 性 ， 而 最 好 在 收敛 阶段 ， 设 置 较 小 的 1， 以 便 进行 较 小 的 修改 。 
衰减 学 习 速 率 的 一 个 非常 常见 的 选择 类 似 于 邻 域 大 小 : 
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7(7) = Moe t<tiy 
nN ty 
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学 习 规则 的 作用 是 迫使 获胜 单元 的 权重 接近 特定 模式 ， 因 此 在 训练 过 程 结 束 时 ， 每 个 





























模式 都 应 引起 代表 一 个 定义 明确 特征 集 的 单个 单元 的 响应 。 自 组 织 源 自 这 种 模型 必须 优化 
单元 的 能 力 ， 以 便 使 相似 的 模式 彼此 靠近 《例如 如 果 垂 直 引 起 单元 的 响应 ， 则 一 个 轻微 的 
旋转 应 引起 领域 的 响应 )。 


Kohonen 映射 示例 












































在 此 示例 中 , 我 们 要 训练 一 个 8x8 的 正方 形 Kohonen 映射 以 接受 Olivetti 面部 数据 集 。 

















uml 








日 于 


每 个 样本 都 是 64 像素 x64 像素 的 灰 度 图 像 ， 因 此 我 们 需要 分 配 一 个 形状 等 于 (8，8， 


4096) 的 权重 矩阵。 训练 过 程 可 能 会 很 长 ; 因此 , 我 们 会 将 映射 限制 为 100 个 随机 样本 ( 当 


、 














读者 可 以 删除 该 限制 ， 并 使 用 整个 数据 集训 练 模型 )。 
同样 ， 让 我 们 从 加 载 和 规范 化 数据 集 开始 ， 如 下 所 示 : 

















import numpy as np 

from sklearn.datasets import fetch olivetti faces 

faces = fetch olivetti faces (shuffle=True) 

Xcomplete = faces['data'] .astype (np.float64) / np.max (faces['data']) 


np.random.shuffle (Xcomplete) 
X = Xcomplete[0:100] 


现在 ， 让 我 们 为 


[SI 





离 函数 的 方差 xD 和 学 习 速 率 (0 定义 指数 衰减 函数 ， 如 下 所 示 : 
import numpy as np 

eta0 = 1.0 

sigma0 = 3.0 


tau = 100.0 


def eta (七 ) : 
return eta0 * np.exp(-float(t) / tau) 


def sigma (七 ) : 
return float (sigma0) * np.exp(-float(t) / taul) 





在 此 示例 中 ， 我 们 令 初 始 学 习 速 率 1(0) = 1， 半 径 方 差 o(0) = 3。 时 间 常 数 等 于 100， 


因为 我 们 计划 执行 500 次 调整 迭代 和 500 次 收 化 迭代 (总共 1000 次 迭代 )。 相 应 的 值 在 下 
面 的 代码 段 中 声明 : 
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nb iterations = 1000 
nb ad] iterations = 500 





此 时 ,我 们 可 以 基于 差 w 一 x 的 工 范 数 定义 权重 矩阵 (初始 化 为 wij ~ N(0, 0.01))〉 和 负 
责 计算 获胜 单元 的 函数 ， 如 下 所 示 : 














import numpy as np 


pattern length = 64 * 64 
pattern width = pattern height = 64 
matrix side = 8 





W = np.random.normal (0, 0.1, size=(matrix side, matrix side, 
pattern length)) 





def winning unit (xt): 

distances = np.linalg.norm(W - xt, ord=2, axis=2) 

max activation unit = np.argmax (distances) 

return int(np.floor (max activation unit / matrix side)), 
max activation unit $ matrix side 


























a 











在 开始 训练 周期 之 前 ， 最 好 预先 计算 距离 矩阵 dim(xo, yo x1,y1)， 其 中 每 个 元 素 代 表 Qeo, y0) 与 
(7) 之 间 的 平方 欧 氏 距离 。 如 以 下 代码 段 所 示 , 此 步 又 在 确定 获胜 单位 邻 域 时 避免 了 计算 开销 : 
































import numpy as np 


precomputed distances = np.zeros((matrix side, matrix side, matrix side, 
matrix side)) 


for i in range (matrix side): 
for ]j in range (matrix side): 
for k in range (matrix side): 
for t in range (matrix side): 
precomputed distances[i, j, k, t] = \ 
np.power (float (i) - float(k), 2) + np.power (float(j) - 
float(t), 2) 


def distance matrix(xt, yt, sigmat): 
dm = precomputed distances[xt, yt, :, :] 


de = 2.0 * np.power (sigmat, 2) 
return np.exp(-dm / de) 


























函数 distance_matrix() 计 算 一 个 方 阵 ， 其 中 包含 所 有 以 (xt, yb 为 中 心 的 神经 元 的 指数 误 
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减 影响 。 现 在 ， 我 们 具有 创建 训练 过 程 所 需 的 所 有 构造 块 ， 该 训练 过 程 基于 我 们 先前 描述 
的 权重 更 新 规则 ， 如 下 所 示 : 























import numpy as np 


sequence = np.arange (0, XxX.shape[0]) 
t= 0 


for e in range (nb iterations): 
np.random.shuffle (sequence) 
t += 1 


if e < nb ad] iterations: 
etat = eta(t) 
sigmat = Sigma(t) 
else: 
etat = 0.2 
sigmat = 1.0 





for n in sequence: 


X Sample = XI[n] 


xw, yw = winning unit (x _ sample) 


dm = distance matrix(xw, yw, sigmat) 


dW = etat * np.expand dims (dm, axis=2) * (x _ sample - W) 
W += dW 


W /= np.linalg.norm(W, axis=2) .reshape((matrix side, matrix side, 1)) 


if e>0 ande % 100 == 
print('Training step: {}'.format(t-1)) 


在 每 个 循环 中 ， 执 行 以 下 步 又。 
。 为 了 避免 相互 关联 ， 对 输入 样本 的 顺序 进行 随机 打 乱 。 
。 计算 学 习 速率 和 距离 方差 (收敛 值 为 ws=0.2 和 =- = 1)。 
。 对 于 每 个 样本 ， 适 用 以 下 条 件 。 
= ”计算 获胜 单元 。 
= ”计算 距离 矩阵 。 
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。 计算 并 应 用 权重 更 新 

。 重新 调整 权重 ， 以 避免 游 出 。 
现在 ， 我 们 可 以 在 训练 过 程 结束 时 显示 权重 矩阵 ， 如 图 9-9 所 示 。 
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9-9 ”训练 过 程 结束 时 的 Kohonen 映射 的 权重 矩阵 


我 们 可 以 看 到 ， 每 个 权重 都 集中 在 面部 的 通用 结构 上 《因为 数据 集 仅 包含 这 种 模式 )。 
但 是 ， 不 同 的 权重 对 特定 的 输入 属性 的 相应 能 力 变 得 更 加 人 敏感。 我 建议 你 先 开 始 看 左上 的 
面部 的 元 素 (例如 眼睛 或 嘴巴 ), 沿 着 螺旋 线 作 顺 时 针 方 向 旋转 ,最 后 在 中 间 的 重要 元 素 上 
结束 。 这 样 ， 很 容易 看 到 接收 字段 中 的 修改 。 作 为 练习 ， 我 建议 读者 使 用 其 他 数据 集 ( 例 
如 MNIST 或 Fashion MNIST) 测试 模型 ， 并 对 最 终 的 权重 矩阵 执行 手动 标记 《例如 考虑 此 
示例 ,特定 权重 可 以 表示 戴 眼镜 的 笑脸 和 一 个 大 描 子 )。 标 记 每 个 元 素 后 ,我 们 就 可 以 投影 
原始 样本 ， 并 通过 直接 提供 标签 作为 输出 来 检查 哪些 神经 元 更 容易 接受 。 





































































































9.4 总 结 





在 本 章 中 ， 我 们 介绍 了 GAN 的 概念 ， 并 讨论 了 DCGAN 的 示例 。 这 些 模型 具有 通过 
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使 用 极 大 极 小 游戏 中 涉及 的 两 个 神经 网 络 来 学 习 数据 生成 过 程 的 能 力 。 生 成 器 必须 学 习 返 
回 与 训练 过 程 中 使 用 的 其 他 样本 没有 区 别 的 样本 。 鉴 别 器 或 评价 器 ， 需 要 为 有 效 样本 分 配 
高 概率 ， 所 以 必须 变 得 越 来 越 聪 明 。 对 抗 训练 方法 基于 强迫 生成 器 战胜 鉴别 器 的 想法 ， 通 
过 学 习 如 何 用 与 真实 样本 相同 的 属性 的 合成 样本 来 欺骗 它 ， 同 时 ， 通 过 越 来 越 具 有 选择 性 
来 迫使 生成 器 战胜 鉴别 器 。 在 我 们 的 示例 中 , 还 分 析 了 一 个 重要 的 称 为 WGAN 的 变 体 , 在 
当 标 准 模型 无 法 重 现 有 效 样本 时 可 以 使 用 该 变 体 。 

SOM 是 基于 大 脑 特定 区 域 的 功能 结构 ， 它 迫使 其 单元 学 习 输 入 样本 的 特定 特征 。 这些 
模型 会 自动 进行 自我 组 织 ， 以 便 使 响应 类 似 模 式 的 单元 更 接近 。 一 旦 出 现 新 的 样本 ， 就 足 
以 计算 获胜 单元 ， 即 权重 与 样本 的 距离 最 短 的 单元 ， 并 且 在 标记 过 程 之 后 ， 可 以 立即 知道 
哪些 特征 引起 了 响应 《例如 垂直 线条 或 高 级 特征 ， 如 眼镜 或 胡子 的 存在 ， 或 面部 的 形状 )。 












































































































































































































































9.5 ”问题 





1. 在 GAN 中 ， 生 成 器 和 鉴别 器 扮演 相同 的 角色 ， 就 像 自动 编码 器 中 的 编码 器 和 解码 
器 正确 吗 ? 


2. 鉴别 器 输出 值 是 否 可 以 在 〈-1, 1) 的 范围 内 ? 

3. GAN 的 一 个 问题 是 鉴别 器 的 过 早 收 敛 ， 正 确 吗 ? 

4. 在 Wasserstein GAN 中 ， 评 价 器 (鉴别 器 〉 在 训练 阶段 是 否 比 生成 器 慢 ? 
5. 考 问题 4， 速度 不 同 的 原因 是 什么 ? 

6. 在 U(-1, 0) 和 U(1, 2) 之 间 ，Jensen-Shannon 散 度 的 值 是 多 少 ? 

7. 赢 者 通 吃 策略 的 目标 是 什么 ? 

8. SOM 在 训练 过 程 的 调整 阶段 的 目的 是 什么 ? 
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1. 无 监督 学 习 可 以 独立 于 有 监督 学 习 应 用 ， 因 为 它们 的 目标 是 不 同 的 。 但 如 果 一 个 问 
题 需 要 有 监督 学 习 ， 通 常 无 监督 学 习 不 能 用 作 蔡 代 的 解决 方案 。 通 常 ， 无 监督 学 习 尝 试 从 
数据 集中 提取 信息 片段 〈 例 如 聚 类 )， 而 没有 任何 外 部 提示 《例如 预测 错误 )。 相 反 ， 有 监 
督学 习 需 要 提示 来 纠正 其 参数 。 

2. 由 于 目标 是 找到 趋势 的 原因 ， 因 此 有 必要 进行 诊断 性 分 析 。 

3. 不 正确 。 从 相同 分 布 中 抽取 n 个 独立 样本 的 可 能 性 是 作为 单个 概率 的 乘积 获得 的 
(主要 假设 参见 问题 4)。 

4. 主要 假设 是 指 样本 是 独立 同 分 布 的 。 

5. 性 别 可 以 编码 为 数字 特征 〔 例 如 独 热 编 码 )， 因 此 ， 我 们 需要 考虑 两 种 可 能 性 。 如 
果 属 性 中 不 存在 性 别 ， 而 且 其 他 特征 与 性 别 没有 相关 性 ， 那 么 聚 类 的 结果 是 完全 合理 的 。 
如 果 属 性 中 存在 性 别 ， 那 么 一 般 的 聚 类 方法 是 基于 样本 间 的 相似 性 ，50/50 的 结果 意味 着 性 
别 不 是 有 差别 特征 。 换 名 话说， 给 定 两 个 随机 选择 的 样本 ， 它 们 的 相似 度 不 受 性 别 的 影响 
《或 稍 有 影响 )， 因 为 其 他 特征 占 主 导 地 位 。 例 如 ， 在 这 种 特殊 情况 下 ， 平 均 分 或 年 龄 的 差 
异 较 大 ， 所 以 它们 的 影响 更 大 。 

6. 我 们 可 以 期 待 更 紧凑 的 组 ， 其 中 每 个 主要 特征 具有 更 小 的 范围 。 例 如 一 个 组 可 以 包含 
年 龄 在 13 一 15 的 学 生 ， 包 含 所 有 可 能 的 标记 等 等 。 或 者 ， 我 们 可 以 观察 基于 单个 特征 的 分 割 
(例如 年 龄 、 标 记 平 均值 , 等 等 )。 最 终结 果 取 决 于 向 量 的 数据 结构 、 距 离 函 数 ， 当 然 还 有 算法 。 

7. 如 果 每 个 客户 都 由 包含 他 /她 的 兴趣 摘要 的 特征 向 量 表示 例如 基于 他 /她 已 经 购买 
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或 看 过 的 产品 )， 我 们 找到 聚 类 分 配 ， 检 查 哪 些 元 素 表征 聚 类 《〈 例 如 书籍 、 电 影 、 服 装 、 特 
定 品牌 ， 等 等 )， 并 使 用 这 些 信 息 片 段 来 推荐 潜在 产品 〈 即 类 似 用 户 购买 的 产品 )。 这 一 概 
念 基 于 在 同一 聚 类 成 员 之 间 共 享 信息 的 主要 思想 ， 这 要 归功 于 相似 性 。 
10.2 第 2 章 

1. 曼哈顿 距离 与 闵可夫 斯 基 距 离 相同 (p=1)， 因 此 我 们 期 望 观察 更 长 的 距离 。 

2. 错误 。 收 敛 速度 主要 受到 质心 的 初始 位 置 影 响 。 

3. 正确 。K-means 主要 用 于 凸 聚 类 ， 在 止 聚 类 上 表现 较 差 。 














4. 这 意味 着 所 有 聚 类 《除了 样本 百 分 上 











《 即 具 有 相同 的 真实 标签 )。 














5. 这 意味 着 











被 接受 的 明显 的 负面 条 们 


6. 不 能 。 














秒 ， 





了 > 
聚 类 








































































































最 佳 聚 类 的 大 小 为 2， 而 且 对 于 K-means 很 
别 是 对 于 大 量 的 样本 )。 





10. VQ 是 一 














在 这 种 不 修改 基 而 


10.3 第 3 





1， 不 是 。 在 凸 集合 中 ， 给 定 两 个 点 ， 连 接 它们 的 线段 始终 位 于 











= 二 
草 








任 的 数据 结构 ， 











， 则 在 60-(2x4)-2=50 
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将 大 的 斑点 正 胡 











| 





请 尊重 版 权 


的 育 


秒 内 执行 完毕 


A 


可 忽略 不 计 的 ) 分 别 只 包含 属于 同一 类 的 样本 





真实 标签 分 布 和 分 配 之 间 存 在 中 等 或 强烈 的 负 差 异 。 这 样 的 值 是 一 个 无 法 
F， 因 为 绝 大 多 数 的 样本 已 经 被 分 配给 错误 的 聚 类 。 
因为 调整 后 的 兰 德 分 数 是 基于 事实 真相 的 《〈 即 预 革 
7. 如 果 所 有 基本 查询 需要 相同 的 时 让 
们 中 的 每 一 个 查询 都 需要 50/100=0.5 秒 。 令 leaf size=50， 我 们 可 以 期 望 将 两 个 50- 
的 执行 时 间 减 半 , 而 对 基本 查询 没有 影响 。 
因此 ， 我 们 可 以 执行 108 个 基本 查询 。 
8. 错误 。ball-tree 是 一 种 不 遭受 维 数 灾 久 
9. 高 斯 WM[-1.0, 0.0]、diag[0.1, 0.2]) 和 
非常 拉 伸 )， 而 第 3 个 是 


类 数量 是 固定 的 )。 
。 因 此 ， 它 
IN 查询 








因此 , 基本 查询 的 总 可 用 时 间 变 为 60-(2x2)-2=54 


计算 复杂 度 始终 为 O(N log M)。 
AN([ 一 0.8, 0.0]，diag[0.3, 0.3]) 重 县 〈 即 使 
足够 远 的 〈 考 虑 均值 和 方差 )， 可 以 由 独立 的 


得 到 的 
获 。 因 此 ， 











了 > 
聚 类 











角 地 分 离 为 两 个 内 聚 分 量 〈 特 





有 损 压 缩 方 法 。 它 只 能 在 语义 不 会 被 小 的 或 中 等 的 变换 改变 时 使 用 。 
语义 的 情况 下 ，VQ 不 可 能 将 令 牌 与 男 一 个 令 牌 交换 。 


合 内 。 


2. 考虑 到 数据 集 的 径 向 结构 ，RBF 内 核 通 常 可 以 解决 这 

















3. 使 


下 精 一 二 
噪声 点 。 





4. 错误 。K-medoids 可 以 用 于 任何 度 




















4 s=1.0 时 











， 许 多 点 不 是 密度 可 达 的 。 当 球 的 3 
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个 问题 











呀 
0° 





KE 径 减 小 时 ， 我 们 应 该 期 和 
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村 更 多 的 






























































































































































5. 错误 。DBSCAN 对 几何 形态 不 敏感 ， 可 以 管理 任何 类 型 的 聚 类 结构 。 

6. 我 们 已 经 证 明了 Mini-batch K-means 的 性 能 略 差 于 K-means。 因 此 , 答案 是 肯定 的 。 
可 以 使 用 批 次 算法 来 节省 内 存 。 

7. 考虑 到 噪声 的 方差 为 oo=0.005 一 ao ~0.07， 这 比 聚 类 标准 差 小 约 14 倍 ， 我 们 不 能 期 
望 在 稳定 的 聚 类 配置 中 有 如 此 大 量 的 新 分 配 (80%)。 
10.4 第 4 章 

. 在 凝聚 方法 中 ， 算 法 从 每 个 样本 开始 ， 视 其 为 一 个 聚 类 ， 并 继续 合并 子 聚 类 直到 定 

my 案 类 。 在 分 裂 方 法 中 ， 算 法 从 包含 所 有 样本 的 单个 聚 类 开始 ， 然 后 通过 拆 分 直到 每 
个 样本 构成 一 个 聚 类 。 

2. 最 近 的 点 是 (0,0) 和 (0,1)， 因 此 单一 链 是 Ze, 5)=1。 最 远 的 点 是 (-1,-1) 和 (1,1)， 所 以 
完整 链 是 L.(a, b) = 2V2。 

3. 错误 。 树 状 图 是 给 定 度量 和 链接 的 分 层 聚 类 过 程 的 树 表示 。 

4. 不 正确 。 在 凝聚 聚 类 中 ， 树 状 图 的 初始 部 分 包含 了 所 有 样本 作为 自治 聚 类 。 

5. y 轴 代表 报告 差异 度 。 

6. 不 正确 。 将 较 小 的 聚 类 合并 为 较 大 的 聚 类 时 ， 差 异 度 会 增加 。 

7. 正确 。 这 就 是 同 表 型 矩阵 的 定义 。 

8. 连通 性 约束 允许 强制 ， 因 此 其 主要 目的 是 将 约束 合并 到 聚合 过 程 ， 从 而 强制 它 将 一 
些 元 素 保 留 在 同一 个 聚 类 中 。 
10.5 第 5 章 

.和 硬 聚 类 基于 固定 分 配 。 因 此 ， 样 本 阅 总 是 属于 单个 聚 类 。 相 反 地 ， 软 聚 类 返回 一 个 

其 元 素 代表 每 个 聚 类 的 成 员 级 别 ， 例 如 (0.1,0.7,0.05,0.15)。 
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2. 错误 。Fuzzy c-means 是 K-means 的 扩展 ， 并 不 太 
允许 评估 近邻 聚 类 的 影响 。 
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日 











于 非 凸 几何 。 但 


RE 











3. 主要 假设 是 数据 集 可 以 从 一 


有 效 的 近似 
4. 


3 





6. 因 
台 ， 期 望 它 





这 意味 着 


第 二 个 
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A 


岳 








人 分布 中 绘制 ， 该 分 布 可 以 有 




















， 因 为 它 可 以 使 














一 个 模型 有 许多 参数 ， 是 第 二 个 模型 的 两 倍 。 





























们 中 的 许 











j 更 少 的 参数 来 实现 相同 的 结果 。 
为 我 们 想 要 使 用 这 样 的 模型 来 自动 选择 





分 量 。 











单纯 形式 上 运行 ， 所 以 它 是 先 验 的 最 佳 选择 。 


7. 如 果 它 们 是 从 相同 的 来 源 收 集 的 并 且 标 记 的 内 容 是 被 验 订 
































督 方法 “例如 生成 高 斯 混合 )， 以 便 为 剩余 的 样本 找到 合适 的 标签 。 
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Ls 


第 6 章 





由 了 





有 多 个 高 斯 分 布 的 加 权 和 来 


这 意味 着 我 们 想 要 从 更 多 的 权重 开 
多 权重 将 被 近 接 近 0。 因 为 Dirichlet 分 布 具有 非常 稀 疏 的 特性 # 























过 的 ， 我 们 可 以 使 用 半 监 


F 随机 变量 明显 独立 ，P(721 Rain) = P(TalDP(Rain) = 0.75。0.2 = 0.15。 











2. 直方 图 的 一 个 主要 缺点 是 ， 当 条 柱 的 数量 过 大 时 ， 很 多 条 柱 都 为 空 ， 因 为 在 所 有 值 





者 





















































围 内 都 没有 样本 。 在 这 种 情况 下 , 蕊 的 基数 可 以 小 于 1000, 或 者 即使 有 超过 1000 个 的 样 
本 ， 相 对 频率 也 可 以 集中 在 小 于 1000 的 多 个 条 柱 中 。 


3. 样本 总 数 为 75， 并 且 条 柱 的 长 度 相等 。 因 此 , P(0 <x<2)=20/75=~ 0.27，P(C <x < 


4)=30/75=0.4 以 及 P(4 <x<6)=25/75 30.33。 由 于 我 们 没有 任何 样本 , 我 们 可 以 假设 P(x > 





0)=0， 因 











5S$， 这 是 属 了 
4. 在 正 态 分 布 N(0, 1) 中 ， 
此 p(x) = 0.35 的 档 











日 
































此 ，PC>2)=PCO<xz<4+P4<x<g0=0.73。 我 们 立即 得 到 确认 ， 因 
x>2 的 条 柱 的 样本 数量 。 
最 大 密度 是 p(0) = 0.4。 在 大 约 3 个 标准 差 后 ，p(x) ~ 0; 因 
本 x 通常 不 能 被 认 作 是 异常 。 





为 0.73x75 = 





5， 当 min(std(2), IOR(2)11.34) = 2.24 时 ， 最 佳 带宽 为 h = 0.9 x 2.24 x 500 02 = 0.58。 
居 给 定 分 布 的 描述 ， 我 们 应 该 首先 选择 指数 内 核 ， 其 允 


6. 即使 可 以 使 


许 在 均值 周 





目 . 委 、 




















斯 内 核 ， 








围 非 常 快 
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TH 可 





速 的 下 降 。 
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7 这 


4 车 

















以 便 对 3 























乎 逻辑 的 结论 。 习 
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地 少 们 














了 实 上 ， 在 新 值 的 情况 下， 我们 应 该 期 望 新 的 样本 改变 分 布 ， 


折 值 进行 建 模 。 如 果 训 练 模型 后 概率 密度 仍然 很 低 ， 则 样本 很 可 能 是 异常 的 。 


10.7 


1. 协 方差 矩阵 已 经 是 对 角 的 ， 特 征 向 量 是 标准 的 x 和 jy 向 量 (1,0) 和 (0,1)， 特 和 
和 1。 因 此， x 轴 是 主 成 分 

2. 当 球 B05(0,0) 为 空 时 ， 在 点 (0,0) 周 围 没 有 样本 。 考 虑 
! 象 了 被 分 成 两 个 斑点 ， 因 此 可 
要 数据 来 验证 。 


它们 并 不 是 独立 的 。PCA 之 后 上 


相 
站 JW 
PB 





通过 实际 


3. 错误 ， 
独立 性 o 


4. 正确 。 





























he 
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Kurt(X) 的 分 布 是 超 高 斯 分 布 ， 
| 独立 的 分 量 。 
5. 由 于 马 包 




















6. 该 字 3 
的 ， 因 此 字典 





非 超 完 备 。 
是 非 超 完备 








7. 样本 (x, y) 所 办 2?， 


10.8 


1. 错误 ， 


的 内 部 结构 可 


之 间 





3. 当 min(sum(2))=0 Hmin(sum(z))) = 128 
\ 有 较 小 值 的 均 有 分 布 ( 当 标准 差 接近 

4. 当 sum(z) = 36 时 ，std(z)) = 0.03 意味 着 大 多 数值 
密集 的 。 


标准 差 大 ) 和 





以 被 认为 是 


背 误 。 


6. 从 最 大 特征 值 到 最 小 特征 值 “ 即 从 第 一 个 主 成 分 到 最 后 
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，》 轴 是 次 成 分 。 
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st 
E 值 是 2 
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EH 



































(10<30) 的 。 





此 它 具 有 峰 














含 负 元 素 ， 因 此 该 数据 集 不 可 能 使 用 NNMF 
由 于 字典 有 10 个 元 素 ， 这 意味 着 文档 是 由 许多 重复 的 术语 组 成 





值 和 习 


及 到 水 了 


方差 c2 = 2， 我 们 可 以 









































以 想象 x = 0 的 线 是 水 平 鉴别 器 。 但 是 ， 这 只 是 一 种 假设 ， 





的 协 方差 矩阵 不 是 相关 的 ， 但 不 保证 统计 的 


E 尾 。 这 保证 了 我 们 可 以 找 


法 。 























由 二 次 多 项 式 变换 为 (aox, by, cx”, dy”, exy, 了) Ee 六 和。 





它们 在 结构 上 并 不 是 对 称 的 。 编 码 器 和 解码 器 都 必须 是 功能 对 称 的 ， 但 它们 








以 是 不 同 的 。 
. 错误 。 Re 的 一 部 分 丢失 了 ， 而 科 

















拆 分 ， 这 些 与 基础 模型 一 起 对 所 有 转换 进行 
时 ， - 36 的 总 和 都 可 以 暗示 稀 朴 〈 如 果 













































































Sanger 网 络 〈 以 及 Rubner-Tavan 网 络 ) 所 
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G3 




















需要 


E 





输入 样 








版 权 


上 余 的 信 ， 
有 。 





息 在 代码 输出 了 和 自 编 





以 0.28(0.25=0.31) 为 中 心 ， 代 码 可 


EF 本 xj EX。 


一 个 主 成 分 )， 按 降序 提取 
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让 
扩 
二 


。 因 此 ， 无 须 进一步 分 析 来 确定 其 重要 性 。 
7. 可 以 。 从 最 后 一 层 开始 ， 可 以 对 每 个 内 部 层 的 值 进行 采样 ， 直 到 第 一 层 。 通 过 选择 
每 个 概率 向 量 的 aremax(*) 来 获得 最 可 能 的 输入 值 。 
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1. 错误 。 生 成 器 和 鉴别 器 在 功能 上 是 不 同 的 。 

2. 不 可 以 。 因 为 鉴别 器 的 输出 必须 是 一 个 概率 〈 即 pe (0, 1))。 

3. 正确 。 鉴 别 器 可 以 非常 快速 地 学 习 输 出 不 同 的 概率 ， 并 且 其 损失 函数 的 梯度 可 以 变 

得 接近 0， 从 而 降低 提供 给 发 生 器 的 校正 反馈 的 幅度 。 

4. 是 的 。 在 Wasserstein GAN 中 ， 评 价 器 在 训练 阶段 通常 很 慢 。 

5. 评价 器 速度 较 慢 ， 因 为 其 每 次 更 新 后 都 会 剪 切 变量 。 
6. 由 于 支持 是 脱节 的 ， 所 以 Jensen-Shannon 散 度 等 于 log(2)。 
7. 目标 是 开发 高 度 选择 性 的 单元 ， 其 响应 仅 由 特定 特征 引起 。 


8. 在 训练 过 程 的 早期 阶段 ， 不 可 能 知道 最 终 的 组 织 。 因 此 ， 强 迫 茶 些 单元 过 早 专业 化 
并 不 是 一 种 好 的 做 法 。 调 整 阶段 允许 许多 神经 元 成 为 候选 者 ， 并 且 同 时 逐步 增加 最 有 希望 
的 神经 元 的 选择 性 〈 它 将 成 为 胜利 者 )。 
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ET 上 二 el 
Unsupervised Learning with Python 


A A lol HE 


无 监督 学 习 是 一 种 机 器 学 习 算法 ， 它 使 用 原始 的 、 未 标记 的 数据 来 帮助 计算 机 预测 结果 。 通 过 阅读 本 书 ， 读 者 将 了 解 无 
监督 学 习 的 基础 知识 ， 并 运用 无 监督 学 习 算法 对 大 型 数据 集 进 行 聚 类 分 析 ， 直 到 找到 所 需 的 结果 为 止 。 


ee 、 无 监督 学 习 、 半 监督 学 习 之 间 的 主要 区 别 开 始 讲解 ， 陆 续 介 绍 了 Python 生态 系统 中 常用 的 库 和 框 

， 并 介绍 了 机 器 学 习 和 深度 学 习 中 的 无 监督 学 习 。 读 者 将 探索 各 种 算法 和 技术 ， 并 将 其 应 用 到 实际 案例 中 以 实现 无 监 
人 包括 随机 优化 、 聚 类 、 特 征 选择 和 转换 等 。 读 者 将 掌握 在 无 监督 情况 下 使 用 神经 网 络 的 经 验 ， 还 将 探索 构 
建 和 训练 生成 式 对 抗 网 络 ( Generative Adversarial Networks，GAN ) 来 处 理 图 像 的 方法 。 





过 阅读 本 书 ， 你 将 能 够 : 
里 使 用 聚 类 算法 来 识别 和 优化 自然 数据 组 合 ; 
和 在 实践 中 探索 高 级 非 线 性 聚 类 和 分 层 聚 类 ; 
和 了 解 模糊 C 均 值 聚 类 ( Fuzzy C-Mean，FCM ) 算法 和 高 斯 混合 模型 的 软 标签 分 配 ; 
里 通过 密度 估计 来 检测 异常 ; 
和 使 用 神经 网 络 模型 执行 主 成 分 分 析 ; 
里 使 用 生成 式 对 抗 网 络 ( GAN ) 创建 无 监督 模型 。 
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